-
살사 계산문제 = on policy TD control ( 행동정책 = 학습정책 )IT&컴퓨터공학/딥러닝 2020. 12. 6. 22:56
몬테카를로는 에피소드가 끝나야 가치함수를 업데이트하는 단점이 있어
살사로 발전함.
큐함수를 업데이트하기 위해 벨만기대방정식을 이용한다.
최종
'IT&컴퓨터공학 > 딥러닝' 카테고리의 다른 글
딥살사 코드 - 딥러닝의 시작 (0) 2020.12.07 큐러닝 코드 ( off policy TD control ) => 학습정책 =! 행동정책 (0) 2020.12.06 살사 코드 (0) 2020.12.06 가치이터레이션 코드 (0) 2020.12.06 정책이터레이션 코드 (0) 2020.12.06 댓글