SlideShare에 올려놓은 슬라이드 버전은 아래와 같습니다.


  • Multilayer Perceptron (MLP) (Commonly known as neural network by lay person)
  • Error Function (Loss Function) of MLP

Multilayer Perceptron (1/2)

Multilayer Perceptron (2/2)

Multiple Layer Perceptron (MLP)

  • MLP는 fully connected임

  • MLP는 classification, regression 모두에 쓰일 수 있음

MLP Architectures (1/2)

MLP Architectures (2/2)

  • 히든 레이어의 활성화 함수로 전통적으로 sigmoid를 사용
  • 왜 step function을 사용하지 않는가? 미분을 가능케 하기 위해

Other Commonly use Activation Functions

MLP Architectures

  • Classification 문제에서 출력 뉴런은 아래와 같이 구성 가능


Multiple Layer Perceptron (MLP)


Multiple Layer Perceptron (MLP)

Multiple Layer Perceptron (MLP)

Common Error/Loss Functions used in MLP


Mean Square Error (MSE) for Regression

  • MSE Loss

$$ \epsilon_k = \frac {1}{2} \sum_{j=2}^p (d_j^k – S(y_j^k))^2 $$

$$ \epsilon = \frac {1}{Q} \sum_{k=1}^Q \epsilon_k$$

  • Q = # of training data

Error Function in the Weight Space

  • Error function epsilon(w)는 못생김
    • 매우 높은 차원
    • non-linear
    • global minima는 도달 불가능할 수 있음
    • local minima는 bad or good

Ugly Error Function

Cross-Entropy for Classification

Error Functions

  • 에러 함수는 validation/test 셋에서는 사용하지 않음

  • 에러 함수는 학습 단계에서의 이정표 역할을 해줌 -> 에러를 줄여 최적의 가중치를 찾기위해


  • GD 알고리즘을 배웠는데 하나의 단일 뉴런의 가중치 최적화를 알아보자.

  • GD를 MLP에는 어떻게 적용할 수 있을까?

Quiz 3


If we assume $f^1, f^2, f^3$ is linear function. We can say a^1 = f^1(w^1p+b^1) becomes also linear function since (w^1p+b^1) is a linear function. after applying $f^1$, each data points just move within linear space.


Let’s replace f^1, f^2, f^3 = p which means it’s a identity function and to make calculation simpler.

$$ a^3 = f^3(w^3f^2(w^2f^1(w^1p+b^1)+b^2)+b^3) $$

$$ a^3 = f^3(w^3f^2(w^2(w^1p+b^1)+b^2)+b^3) \ since \ f^1 = p$$

$$ a^3 = f^3(w^3f^2(w^2w^1p+w^2b^1+b^2)+b^3) $$

$$ a^3 = f^3(w^3(w^2w^1p+w^2b^1+b^2)+b^3) \ since \ f^2 = p$$

$$ a^3 = f^3(w^3w^2w^1p+w^3w^2b^1+w^3b^2+b^3) $$

$$ a^3 = w^3w^2w^1p+w^3w^2b^1+w^3b^2+b^3 \ since \ f^3 = p$$

$$ a^3 = w^3w^2w^1p+w^3w^2b^1+w^3b^2+b^3 $$

we can say

$$ a^3 = Ap+C \ where \ A = w^3w^2w^1, C = w^3w^2b^1+w^3b^2+b^3 $$

As a result, final activation function a ^ 3 is a single linear neuron.

This only makes 1-dimension decision boundary(hyperplane), so it can’t solve complex classification problem(using more than 2-dimension hyper plane).

So, we should use non-linear activation function in MLP.