Slide
SlideShare에 올려놓은 슬라이드 버전은 아래와 같습니다.
Content
- Linearly non-separable data
- Supervised Learning
- Gradient Descent Algorithm
XOR is Not Linearly Separable

Three Perceptrons Are Required
- 2개의 뉴런이 hyperplane을 만들어 내고 나머지 한 뉴런이 2개의 hyperplane을 연결  

Network of Perceptrons to solve XOR (1/2)


Interpretation

Supervised Learning

Main Idea

Gradient Descent Algorithms
- Close form solution
- Batch Gradient Descent (BGD)
- Stochastic Gradient Descent (SGD)
- Mini-batch Gradient Descent
Perceptron without Step Activation Function

Mean Squared Error (MSE)

Vectorization (1/2)

Vectorization (2/2)

Our problem…
- 에러를 최소화하는 Wk를 찾는 것  
Close Form Solution
Finding the Minimum Error

Summary
- 
Close form 솔루션은 한번에 해결책을 제시해 줌 
- 
단점 ?  
Batch Gradient Descent (BGD)
Batch Gradient Descent (BGD)

Batch Gradient Descent (BGD)

BGD Interactive Demo
Batch Gradient Descent (BGD)


Problems of BGD
- 
정확한 gradient 정보는 사전에 정의 되어야 함 즉 R과 P가 정확히 계산되어 있어야함  
- 
문제 1 : 랜덤한 스트림 패턴의 데이터가 들어오면 R과 P를 정확히 계산 못함 
- 
문제 2 : P와 R을 계산하는 것은 벡터 차원이 커질수록 매우 heavy함 
Stochastic Gradient Descent (SGD)
Stochastic Gradient Descent
- 
데이터 스트림에서 정확하게 예측하기 위해 합리적으로 긴 시간동안 평균치를 구해야 함 
- 
신뢰할만한 R과 P를 예측하기 위해 얼마나 많은 스트림 데이터를 흘려보내야 할까? 
- 
방안: SGD는 k개의 interation동안 Wk가 최적의 솔루션 Wopt에 가까워질수록 평균으로 수렴한다. 
Stochastic Gradient Descent

Stochastic Gradient Descent
- 
SGD의 가중치 업데이트 수식  
- 
 
Stochastic Gradient Descent (SGD)

BGD vs SGD (1/2)

BGD vs SGD (2/2)

Mini-Batch Gradient Descent
- Batch와 SGD의 중급자 모드

Mini-Batch Gradient Descent

Summary

다음 강의
- 
다중 퍼셉트론을 이용한 non-seperable 문제를 풀어보았음 
- 
그러나 실제로 데이터는 noisy하고 이진 분류 분제로 제한되지 않음 어떻게 더 네트워크를 발전시킬 수 있을까? 
- 
자동으로 학습하는 알고리즘을 배웠음 그러나 현재까지 배운 활성화 함수는 미분 불가능인데 어떻게 GD를 뉴럴넷에 적용시킬수 있을까?