카테고리 없음
[도시정보체계론] 5월 25일 수업 필기(가설함수, 비용함수, 선형회귀, 경사하강법)
포비멍이지연
2020. 5. 25. 10:30
1. 가설함수의 선택
- 내가 가진 데이터에 적합한 모델에 대한 가설을 설정하기 ex. data를 보니 linear하면, 가설함수를 linear regression 함수를 가정함
- 가설함수를 잘못 선택하면, 잘 예측하지 못하는 모델을 만들 수 밖에 없음
2. 비용함수
- MSA가 비용함수의 대표적임
- 비용함수의 특징은 cost가 낮으면 낮을수록 우리 모델의 학습이 잘 된 것
3. 선형 회귀
- 선형회귀분석은 변수들 사이의 관계를 분석하는데 사용하는 통계학적 방법으로 독립변수 x와 상수항 b와 종속변수 y 사이의 관계를 모델링하는 가설 함수의 일종
- 독립변수가 하나일 경우 단순회귀라 하며, 여러 개일 경우 다중회귀(multinominal regression)라 함
- ex: 삶의 만족도 = W*GDP + B
- multinominal regression이란 특징 값이 여러 개 들어가는 거고, polinominal regression은 x^2, x^3 이런 걸 의미함
- n개의 feature가 있는 regression은 multinomianl regression임
4. 비용함수
- 지도학습에는 모두 비용함수가 있음
- 정답과 추정치의 괴리를 정의하는 함수
5. 경사하강법(Gradient Descent)
- 비용 함수 상에서 기울기를 계산하며 최소인 지점을 찾아감
- 미분값이 작은 쪽으로 계속 보냄
- 얼마만큼 보내냐? learning rate만큼 아래쪽 방향에서 계속 보냄(convex function의 경우)
- learning rate가 너무 크면, 최소점을 찾지 못하고 계속 왔다갔다만 하는 상황이 발생함
- feature scaling을 통해서 타원형을 원형으로 맞춰주는 시도도 함
- 구글의 경우에는 global minimum을 찾기 위해서 iteration 초반에는 learning rate을 키웠다가 어느정도 iteration을 돌고 global minimum에 가깝다고 판단될 때부터는 lr을 줄이는 그래서 global minimum을 찾아가는 방식
5.1 경사하강법의 종류
- 배치 경사하강법: 장점 정말 정확한 방향으로 내려감. 방향을 기가 막히게 잘 잡음. 모든 샘플을 보고 방향을 결정하기 때문에. 치명적인 단점 데이터가 너무 많으면 시간이 오래 걸림. 모든 샘플을 봐야하니까. 딥러닝에서는 아예 쓰기가 힘듦.
- 확률적 경사하강법: 방향을 잡을 때 한 개의 데이터만 봄. 이 데이터로 봤을 때 미분해서 하강 방향을 잡아서 그 쪽으로 계속 감. 가장 큰 단점은 학습은 오래 안 걸리는데, 제대로 된 방향이 아닌 경우가 빈번하게 발생.
- 미니 배치 경사하강법: 100개 중에 1~10 데이터를 보고 방향을 잡음. mini-batch 단위로 자르고. 사실 상 가장 많이 사용되고 있음. 페이스북은 미니 배치 사이즈를 8,000정도로 해서 돌렸다 ㅇㅅㅇ.. 8,000이라니ㅋㅋㅋㅋㅋ