티스토리 뷰

머신러닝

[머신러닝]군집화

caneo 2021. 8. 23. 15:52
728x90
반응형

군집화레이블이 없는 데이터에 대한 비지도학습(unsupervised learning)의 일종이다. 입력 변수에 대해 유사한 데이터끼리는 같은 군집에 포함시키고 다른 데이터이면 다른 군집으로 묶는 기법이다.

서로 비슷한 데이터를 그룹화하여 이해하기 쉽게 데이터를 가공하는 데 사용되며, 데이터 셋을 요약, 압축하는 데도 활용된다.


데이터들을 군집화하는 방식에는 여러 가지가 있다. 대표적으로 계층적(hierarchical) 군집화분할적(partitional) 군집화가 있다.

계층적 군집화군집들이 포함관계를 통해 계층을 이루도록 구성하는 반면 분할적 군집화서로 중첩되지 않는 군집으로 데이터들을 나누어 가지도록 구성하는 방식이다.

이외에도 고려할 수 있는 군집화의 특성에는 여러 종류가 있다. 이외에도 배타성, fuzzy, 부분성, 균질성 등의 군집화 특성들이 있다.


K-means Clustering은 분할적 군집화 중 하나이다. k개의 중심점(Centroid)에 대해 가장 가까운 점들을 묶어서 k개의 군집을 형성한 후 군집 데이터의 평균으로 군집의 중심점을 다시 계산하고 군집화하는 과정을 중심점이 바뀌지 않을 때까지 반복하여 안정적인 k개의 군집을 얻는 방식이다. 이때 k는 학습 이전에 결정되어야 하는 hyperparameter이다.


초기에 정해지는 k개의 중심점의 위치에 따라 군집의 형태가 달라지며 k-NN과 같이 거리에 대해 다양한 정의가 허용된다. , 한 번의 수행을 통해서는 극소 최적해를 찾을 수 있을지 모르지만 광역 최적해에 대한 보장이 되지 않는 것이다.

여러 번의 군집화 과정에서 오차의 제곱합(Sum of Square Errors, SSE 군집의 중심점과 데이터 사이의 거리 제곱의 합)을 최소화하는 군집화 결과를 채택해야 한다. 다만, k 값이 커질수록 SSE 또한 낮아지는 점을 고려하면 정확한 군집화 성능을 평가하기 위해서는 k값을 충분히 고려해야 한다.

임의로 중심점 위치를 잡은 후 여러 번의 군집화를 시도하여 최적의 중심점 위치를 찾을 수 있지만 그러지 못한 경우가 생길 수 있다. 이를 해결하기 위해 계층적 군집화를 응용하거나, k개보다 많은 초기 중심점 중 k개를 선택하거나, 분할을 반복하여 k개의 군집이 되도록 하는 방식으로 보완할 수 있다.


k-means 군집화 방법은 그 방식의 특성상 군집의 크기나 밀도가 다른 경우 적절하게 군집화를 할 수 없다. 군집의 모양이 원형이 아닌 경우도 그렇다. 또한 이상치에 대해서도 강건하지 못하다. 이를 해결하기 위해 평균 대신 중앙값을 채택할 수도 있다.


계층적 군집화계층 구조를 이용하여 군집을 표현하며 시각적으로 표현하기 위해 덴드로그램(dendrogram)을 사용할 수 있다. 덴드로그램 상 cutting line을 결정하여 군집의 수를 조절할 수 있다.

군집화의 과정은 두 가지가 있다. 군집 간의 근접도(proximity, MIN-노이즈에 취약, MAX/Group Average 큰 군집 선호/노이즈에 강건.)에 따라 작은 군집에서 큰 군집으로 발전하는 방식(Agglomerative)큰 군집에서 작은 군집으로 분리되는 방식(Divisive)가 있다.


계층적 군집화의 한계는 다음과 같다. 군집화가 이루어진 후 군집은 분리되지 않는다. 또한 군집화를 최적화하는 직접적인 함수를 찾기가 힘들다. 어떠한 근접도 기준을 사용하여 모든 조건을 충족할 수 없다.


비지도학습인 군집화는 다른 지도학습과 다르게 평가하기가 까다롭다. 좋은 군집화에 대한 사람마다의 기준이 다를 수 있지만 사용 목적 달성을 평가하기 위해서는 척도를 도입해야 한다.

군집화를 평가하기 위해 3가지 지수가 도입된다.

External Index주어진 레이블과 군집화의 레이블을 비교하는 것이다.

Internal Index군집화 결과 자체로 군집화의 성능을 평가하는 것이다.(Cluster cohesion, Cluster separation)

Relative Index두 군집을 비교하여 평가하는 것이다.(Adjusted Rand Index, ARI)

 

728x90
반응형
반응형
250x250
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함