IT&컴퓨터공학/딥러닝
-
[딥러닝] 2강. 지도학습의 데이터종류 , 왜 딥러닝이 발전할 수 있었는가?IT&컴퓨터공학/딥러닝 2021. 2. 9. 22:37
지도학습의 데이터 종류 : 구조적 데이터와 비구조적 데이터 구조적인 데이터와 비 구조적인 데이터로 나눌 수 있으며, 컴퓨터는 당연히 비구조적인 데이터를 다루기 어려워 한다. 그러나 딥러닝덕분에 컴퓨터가 비구조적인 데이터 , 예를들면 오디오나 이미지 , 문자와 같은 데이터를 더 잘 이해할 수 있게 되었다. 딥러닝이 발전한 이유 초기의 딥러닝 , 로지스틱 회귀와 같은 딥러닝의 경우 데이터의 양이 증가할수록 performance 가 증가하였으나 어느 일정수준이 되면 더이상 증가하지 않았다. 그러나 사람들의 디지털 기기 이용이 늘며 데이터 양이 증가함에 따라 , 그리고 신경망을 더 큰걸 사용하면 사용할수록 Performance 가 증가했다. 즉 단순히 규모를 증가시키는것이 딥러닝의 큰 발전을 가져왔다.
-
[딥러닝]1강. 딥러닝이란 무엇인가 ?IT&컴퓨터공학/딥러닝 2021. 2. 9. 21:59
딥러닝 전반에 대한 복습 차 Andrew Ng 의 딥러닝 강의를 들으며 정리해보려고 한다 ! 총 140강으로 약 2~3 주에 걸쳐 들을 예청이며 에드위드(edwith)에서 한글 자막을 달아주었으니 참고하면 좋을것같다 ! 딥러닝 신경망을 학습시키는것 선형회귀에 대해 알고있다면, 주택 사이즈에 따른 주택가격 예측 함수를 이렇게 그려볼 수 있다. 이 함수를 간단한 신경망으로 볼 수 있는데, 이렇게 하나의 '뉴런' 으로 표현할 수있으며, 이 뉴런에는 위에서 본 예측 함수가 들어간다. 이때 이렇게 계속 0을 유지하다가 올라가는 함수를 'ReLu' 함수라고 한다. ( 음수는 없음 ! ) 이런 뉴런이 여러개가 모여 큰 신경망을 이룬다. 예를들자면 방의 사이즈와 갯수는 가족이 몇명인지 나타낼 수 있으며 zip code..
-
수식IT&컴퓨터공학/딥러닝 2020. 12. 7. 20:34
Discounted return : 보상과 감가율을 통해 얻게 되는것 : G로 표현 상태가치함수 : 에이전트가 그 상태로 갈 경우 앞으로 받을 보상의 합에 대한 기댓값 ※ 상태 가치함수 변형 : Discouted Return 을 풀어써서 가치함수로서 재귀적으로 표현 → 벨만 기대 방정식 벨만 기대 방정식 : 현재 상태의 가치함수와 다음상태의 가치함수의 관계를 나타냄 행동가치함수 ( 큐함수 ) : 상태 s에서 a라는행동을 했을 때 받은 보상 큐함수로 나타낸 상태가치함수 정책 파이 : s에서 a라는 행동을 할 확률 큐함수 : 상태 s에서 a라는 행동을 했을 때 받은 보상 벨만기대방정식 형태로 나타낸 큐함수 정책을 고려해서 쓴 상태가치함수 : 사실 상태가치함수는 정책에 의존적이므로 정책까지 제대로 써줘야함 큐..
-
DQN 코드- cartpoleIT&컴퓨터공학/딥러닝 2020. 12. 7. 16:47
DQN : 타겟신경망 / 학습신경망 다르게 운영 타켓신경망은 에피소드마다 업데이트 학습신경망은 스텝마다 업데이트 리플레이 메모리 : 샘플을 저장해 두는 저장소 if 연속적인 샘플들이 샘플링 되면 학습 속도가 매우느려짐 이를 방지하기 위해서 샘플들을 리플레이 메모리에 저장해두고, 나중에 여기서 랜덤샘플링을 해서 학습 시킴 train.py 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73..
-
폴리시 그레이디언트IT&컴퓨터공학/딥러닝 2020. 12. 7. 01:08
정책기반 강화학습 - 여기서 인공신경망은 정책신경망이라고 함 ( 때문에 출력층의 활성함수는 'softmax' 를 이용 - 합해서 1이 나와야 하므로) train.py 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 1..
-
딥살사 코드 - 딥러닝의 시작IT&컴퓨터공학/딥러닝 2020. 12. 7. 00:40
이전까지 큐테이블을 이용했지만 장애물이 움직이는 것과 같은경우 상태 개수와 행동갯수가 너무 커지는 경우에 큐테이블을 사용할 수 없음. 더이상 직접 계산이 불가능하므로 인공신경망을 이용해서 모델이 스스로 학습하도록 한다. 딥살사 = 살사알고리즘 + 인공신경망 이용 원래 큐함수 업데이트 식 이거 상태하나하나 계산하는거 불가능 하니까 -> 주황색 글씨만 알면 이걸 최소로 하는 모델을 만들면되겠다. 딥살사에서 사용하는 오차함수 식 이걸 최소로 하는 모델을 만들자 ! -> 경사하강법 이용 train.py 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 4..
-
큐러닝 코드 ( off policy TD control ) => 학습정책 =! 행동정책IT&컴퓨터공학/딥러닝 2020. 12. 6. 23:49
살사는 행동정책과 학습정책이 동일해서 그리드월드에 갇히는 경우가 발생함 예를들어 전 에피소드에서 맞는 길을 가던중에 장애물로 가는 행동을 해서 현재상태의 가치함수가 낮아지면 다음 에피소드에서도 이 상태로는 다신 안감 -> 원래 맞는길인데 거기로 안가고 계속 뱅글뱅글 돔 이걸 극복한게 큐러닝 큐러닝은 학습정책과 행동정책을 따로 둔다. 벨만 최적방정식을 이용한다. environment.py 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 ..