살사 계산문제 = on policy TD control ( 행동정책 = 학습정책 )

살사 계산문제 = on policy TD control ( 행동정책 = 학습정책 )

IT&컴퓨터공학/딥러닝 2020. 12. 6. 22:56

몬테카를로는 에피소드가 끝나야 가치함수를 업데이트하는 단점이 있어

살사로 발전함.

큐함수를 업데이트하기 위해 벨만기대방정식을 이용한다.

최종

딥살사 코드 - 딥러닝의 시작 (0)	2020.12.07
큐러닝 코드 ( off policy TD control ) => 학습정책 =! 행동정책 (0)	2020.12.06
살사 코드 (0)	2020.12.06
가치이터레이션 코드 (0)	2020.12.06
정책이터레이션 코드 (0)	2020.12.06

인기포스트 MORE POST