티스토리 뷰

728x90
반응형

결합 확률(joint probability)두 사건이 동시에 발생할 확률을 의미한다.

주변 확률(marginal probability)결합 확률들의 합으로 표현되는 함수로 훨씬 범위가 큰 사건의 확률을 의미한다.

조건부 확률(Conditional Probability)어떠한 사건이 이미 일어났다고 할 때 다른 사건이 일어날 확률을 의미한다. 이미 일어난 사건을 조건, 사전 정보(prior information)이라고 한다.

전체 확률의 법칙(Theorem of Total Probability)표본 공간을 서로 배반인 사상으로 분할했을 때 표본 공간에서 일어나는 사건 A가 각 사상의 사건이 일어날 확률과 사상에 대한 사건 A의 조건부 확률의 곱의 총합과 같다는 법칙이다.

베이즈 정리(Bayes Theorem)사건 A에 대한 특정 사상의 사건의 조건부 확률은 사건 A를 구성하는 사건 A에 대한 다른 사상의 사건의 조건부 확률의 합에 대한 위의 조건부 확률의 비율과 동일하다는 정리이다.


모든 분류 문제를 확률적으로 해결할 수 있고, 문제 해결에 필요한 확률을 빠짐없이 얻을 수 있다면 베이즈 결정 이론을 통해 데이터에 대해 최적의 분류를 수행할 수 있다. 해당 이론에는 여러 가지 용어와 공식이 등장한다. 우도(likelihood)클래스가 주어졌을 때 확률 변수의 조건부 확률이다. 사전확률(prior probability)클래스일 확률이다. 우도와 사전확률, 데이터의 확률을 이용하여 사후확률(posterior probability)를 계산할 수 있다. 사후 확률해당 데이터가 주어졌을 때 어떠한 클래스일 확률이며 모든 클래스 중 사후 확률이 가장 높은 클래스로 데이터를 분류하게 된다.


단순 베이즈 분류(Naive Bayes Classifier)는 이러한 베이즈 결정 이론을 이용한 분류 모형이다. 어떠한 입력 변수가 주어졌을 때 사후 확률을 최대화하는 클래스를 찾아 입력된 데이터에 대해 클래스를 분류하는 것이다. 해당 사후 확률을 사전확률과 우도를 통해 계산할 수 있으며, 우도는 학습할 데이터로부터 얻을 수 있는 간단한 확률들의 곱으로 대체할 수 있다. 따라서 사전확률, 우도는 학습 데이터를 통해 그 값을 얻을 수 있다.

모델을 학습시킬 때 주어지는 입력 데이터들이 연속적인 경우일 수 있다. 이 경우 확률 계산을 하기 위해서 이산적인 형태로 변환하거나 임의의 확률밀도함수를 갖는다고 가정한 후 분류를 진행할 수 있다. 조건부 확률의 경우 기본적인 공식으로는 확률을 제대로 구하지 못하는 경우가 생긴다. 그러한 경우 라플라스나 m-추정 공식을 사용하여 문제를 해결할 수 있다.


단순 베이즈 분류는 최소제곱법을 활용하는 분류와 다르게 이상적인 값(outlier)에 면역이 있으며, 확률을 계산할 때 정상적으로 측정되지 않은 값을 거를 수 있다. 다만 확률 계산의 가정으로 세운 입력 변수의 속성들간의 독립성이 보장되지 않으면 문제가 생길 수 있다.


베이지안 추정 이론은 기본적인 확률에 사전 정보를 포함시켜 추정의 정확도를 보정하는 이론이다.

 

728x90
반응형
반응형
250x250
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/06   »
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30
글 보관함