http://ufldl.stanford.edu/wiki/index.php/Softmax_Regression
Weight Decay는 무언인가?
1. 일반적으로 cost function(비용함수)에 해가의 값들이 큰것은 패널(penal)을 주도록 항을 하나 추가한다.
2. 모든 제곱의 해의 합(L2-norm)이 작아지도록 하는 역할을 한다.
3. 이렇게 하면,sofxmax 형태의 cost function이 완벽한(엄격한,strictly) 볼록함수(convex function)이 된다.
4. strict convex function이되면, 유일해를 찾을 수 있다.
5. Hessian행렬이 invertible하여, L-BFGS와 같은 알고리즘들이 global minimum에 수렴하도록 보장한다.
6. Softmax cost function은 closed-form의 해를 알지못하여, iterative 방식인 알고리즘(L-BFGS or gradient descent)을 이용한다.
7. Regularization 기법 중에서, 제곱형태(L2-norm)의 regularization은 weight decacy와 동치가 된다.
동강을 봐라 http://work.caltech.edu/library/123.html
http://en.wikipedia.org/wiki/Regularization_(mathematics)
L1 norm은 1) sparse model을 더 많은 연구자들이 선호하기 때문에 L2-norm보다 더 자주 이용한다. 2) learning algorithm에서는 feature selection의 역할을 한다.3) 일반적으로 deep learning에서는 overcomplemeteness(http://en.wikipedia.org/wiki/Overcompleteness)이되어 기본 신호의 개수가 관찰한 신호 보다 더 많다. 부연하면 보통 기본 신호의 선형 조합으로 신호를 생성해내는데, 조합해야할 기초 신호가 더 많으므로 나머지는 0으로하고 몇 개의 기초 신호로 관찰한 신호가 표현이 가능할 것이다. 이것은 결국 sparse(0이 대부분이고 1이 적은 형태)한 형태의 weight또는 인자들을 구하는 구조가 된다.
L2 norm은 neural network에선 특별히 weight decay로 부른다.
* overcompleteness (=redundant) 간단 설명: 어떠한 관찰된 신호는 기초 신호들의 조합으로 만들어진다고 가정할 때, 기초 신호들이서 하나를 빼도 관찰한 신호를 생성할 수 있으면 overcompleteness이다. 잉여(redundant)가 많다는 소리이다. 이렇게 조합해도 관찰된 A신호가 만들어지고, 다른 신호들로 조합해도 관찰된 A신호가 만들어 질 수 있다. 특히 여기서 기초 신호들은 서로가 독립일 필요가 없다. 그래야 하나가 빠져도 다른 것이 빠진것을 받쳐준다. 그리고 basis이론보다 더 안정적이고, 강건한 신호를 얻을 수 있는 특징을 가지고 있어서 많은 연구자들이 선호하는 신호 분석 기법이다.
요런것들도 기초 신호로 만들 수 있으나, 이런것의 무한한 형태이고, 모든 형태를
이와 같이 하면, 무한대로 수렴하여 이러한 기초 신호들은 선택을 하지 않는다. 이것은 신호처리에서 발산하여 처리하기가 어려워 질 수 있다. 가끔보면 신호처리할 때 무한대로 가면 처리를 못하는 경우가 부지기수이다.
'Deep Learning' 카테고리의 다른 글
패션상품자동태킹 및 색기만 유사 상품 검색 (0) | 2014.11.26 |
---|---|
Deep learning에서 training이 꼭 필요한가? (1) | 2014.11.25 |
[Caffe] DeepLaerning Learning Rate (0) | 2014.11.19 |