[Deep Learning] Cross-entropy
CS/Deep Learning

[Deep Learning] Cross-entropy

Entropy 확률적으로 발생하는 사건에 대한 정보량의 평균을 의미한다. 정보량은 식으로 나타내면

인데 이것은 놀람의 정도를 말한다. 사건의 발생확률이 낮을수록 놀람의 정도는 커진다. 높은 정보량을 갖고 있음을 의미한다. 여기서 로그 함수를 취하는 이유는 놀람의 정도를 표현하는데 최소한의 자원을 나타낼 있기 때문이다.

 

Cross-entropy 두개의 확률 분포 p q 대해서 하나의 사건 X 갖는 정보량을 의미한다. 다시 말하면 q 대한 정보량을 p 대해서 평균 것을 말하는데 식으로 나타내면

이다. Cross-entropy 손실함수를 정의하는데 사용되곤 한다. 이때 p true probability로써 true label 대한 분포를, q 현재 예측모델의 추정값에 대한 분포를 나타낸다. 식을 다시 나타내면

이다. 여기서 C class 개수이다. C 2 제한한 경우가 binary cross-entropy이다.

 

Binary cross-entropy 두개의 class 하나는 예측하는 task 대한 cross entropy 특별 케이스다. 결과로 나올 있는 경우가 0, 1 두가지 이므로 C = 2이다.

여기서 binary cross-entropy Logistic cost :

같게 된다.

728x90
반응형