-
수식IT&컴퓨터공학/딥러닝 2020. 12. 7. 20:34
- Discounted return : 보상과 감가율을 통해 얻게 되는것 : G로 표현
- 상태가치함수 : 에이전트가 그 상태로 갈 경우 앞으로 받을 보상의 합에 대한 기댓값
※ 상태 가치함수 변형 : Discouted Return 을 풀어써서 가치함수로서 재귀적으로 표현 → 벨만 기대 방정식
- 벨만 기대 방정식 : 현재 상태의 가치함수와 다음상태의 가치함수의 관계를 나타냄
- 행동가치함수 ( 큐함수 ) : 상태 s에서 a라는행동을 했을 때 받은 보상
- 큐함수로 나타낸 상태가치함수
정책 파이 : s에서 a라는 행동을 할 확률
큐함수 : 상태 s에서 a라는 행동을 했을 때 받은 보상
- 벨만기대방정식 형태로 나타낸 큐함수
- 정책을 고려해서 쓴 상태가치함수 : 사실 상태가치함수는 정책에 의존적이므로 정책까지 제대로 써줘야함
- 큐함수를 구하는 식
- 상태가치함수를 계산 가능한 형태로 쓴 식
- 최적의 가치함수 : 최적정책을 따라갔을때 받는 가치함수
- 최적의 큐함수
- 최적의 가치함수와 최적의 큐함수 간의 관계 : 최적의 큐함수 중에서 max 를 취한것 = 최적의 가치함수
- 최적의 가치함수를 벨만 최적방정식 형태로 나타낸 식 : 큐함수를 상태가치함수로 고쳐쓰면 된다.
- 최적의 큐함수를 벨만 최적방정식 형태로 나타낸 식
- 벨만 기대방정식을 이용한 가치함수 식 ( 상태변환확률은 1 로 가정 )
- 벨만 최적방정식을 이용한 가치함수 식
- 큐함수 식
- 몬테카를로에서 가치함수의 업데이트 식
- 시간차예측에서 가치함수 업데이트 식
- 살사에서 큐함수 업데이트 식
- 살사의 큐함수 식
- 큐러닝에서 큐함수 업데이트 식
'IT&컴퓨터공학 > 딥러닝' 카테고리의 다른 글
[딥러닝] 2강. 지도학습의 데이터종류 , 왜 딥러닝이 발전할 수 있었는가? (0) 2021.02.09 [딥러닝]1강. 딥러닝이란 무엇인가 ? (0) 2021.02.09 DQN 코드- cartpole (0) 2020.12.07 폴리시 그레이디언트 (0) 2020.12.07 딥살사 코드 - 딥러닝의 시작 (0) 2020.12.07 댓글