전공/머신러닝 9

[머신러닝]군집화

군집화는 레이블이 없는 데이터에 대한 비지도학습(unsupervised learning)의 일종이다. 입력 변수에 대해 유사한 데이터끼리는 같은 군집에 포함시키고 다른 데이터이면 다른 군집으로 묶는 기법이다. 서로 비슷한 데이터를 그룹화하여 이해하기 쉽게 데이터를 가공하는 데 사용되며, 데이터 셋을 요약, 압축하는 데도 활용된다. 데이터들을 군집화하는 방식에는 여러 가지가 있다. 대표적으로 계층적(hierarchical) 군집화와 분할적(partitional) 군집화가 있다. 계층적 군집화는 군집들이 포함관계를 통해 계층을 이루도록 구성하는 반면 분할적 군집화는 서로 중첩되지 않는 군집으로 데이터들을 나누어 가지도록 구성하는 방식이다. 이외에도 고려할 수 있는 군집화의 특성에는 여러 종류가 있다. 이외에..

전공/머신러닝 2021.08.23

[머신러닝]비선형분류모형(하)

초평면(hyperplane)은 임의의 공간을 양분하는 평면이다. 특정 차원에 국한되지 않고 모든 차원에 대해 1만큼 적은 차원을 가지며 공간을 양분한다. 데이터들이 좌표 공간에 놓여있을 때 클래스에 따라 데이터를 구분하는 초평면을 어떻게 그리는 것이 가장 좋을까? 초평면과 가장 가까운 데이터를 Support vector라고 하고 둘 사이의 거리를 Margin이라고 할 때, Margin을 최대화하는 초평면이 가장 좋다고 판단한다. Margin이 클수록 일반화 오차가 감소하며 작을수록 작은 섭동에 의해 클래스 분류가 바뀔 수 있어 과적합 문제를 발생시킨다. 초평면은 오로지 Support vectors에 의해 결정되며 다른 어떠한 학습 데이터들은 영향을 주지 못한다. 데이터가 섞여 있어 데이터의 클래스를 하나..

전공/머신러닝 2021.08.23

[머신러닝]비선형분류모형(중)

비선형분류모형 중 k-근접 이웃 분류(k-neareast neighbor : k-NN)가 있다. 이 분류기는 어떠한 데이터가 입력되면 입력 변수를 기준으로 주변의 데이터들 간의 거리를 계산하고 가장 “가까운” k개의 데이터들이 주로 속한 클래스에 할당시키는 방식으로 분류를 진행한다. 가까움에 대해 여러 가지의 정의가 있을 수 있다. 입력 변수 값이 연속적인 경우, 유클리디안 거리, 마할라노비스 거리, 코사인 유사도, 민코프스키 거리, 맨해튼 거리 등 여러 가지 평가 척도가 존재한다. 일상 생활에서 가장 많이 쓰이는 거리의 개념은 유클리디안 거리에 해당한다. 맨해튼 거리의 경우 위치 간의 수직, 수평 거리의 합을 의미하며, 민코프스키 거리는 유클리디안, 맨해튼 거리 등을 모두 포함할 수 있는 큰 범주의 거..

전공/머신러닝 2021.08.23

[머신러닝]비선형분류모형(상)

의사결정나무(decision tree) 의사결정나무는 비선형분류모델로 많이 사용되는 분류기 중 하나이며 데이터에 대한 분류 이유를 설명할 수 있다는 특징을 가지고 있다. 대부분의 머신러닝 모델들이 결과에 대한 해명을 하지 못한다는 사실에서 굉장한 장점이라는 것을 느낄 수 있다. 루트에서부터 리프까지 각 지점에 있는 기준에 의해 데이터가 순차적으로 분류된다. 또한 동일한 데이터 셋에 대해 여러 개의 다른 구조의 트리 모델을 학습시킬 수 있다. 의사결정나무 모델을 학습하는 알고리즘 중 Hunt’s algorithm은 다음과 같다. 특정 노드 A에 속해 있는 데이터들이 모두 동일한 클래스 B에 속해 있다면 노드 A는 클래스 B의 리프 노드라고 한다. 노드에 아무 데이터도 없다면 노드 A는 기본 클래스(defa..

전공/머신러닝 2021.08.23

[머신러닝]선형분류모형(하)

결합 확률(joint probability)는 두 사건이 동시에 발생할 확률을 의미한다. 주변 확률(marginal probability)는 결합 확률들의 합으로 표현되는 함수로 훨씬 범위가 큰 사건의 확률을 의미한다. 조건부 확률(Conditional Probability)는 어떠한 사건이 이미 일어났다고 할 때 다른 사건이 일어날 확률을 의미한다. 이미 일어난 사건을 조건, 사전 정보(prior information)이라고 한다. 전체 확률의 법칙(Theorem of Total Probability)은 표본 공간을 서로 배반인 사상으로 분할했을 때 표본 공간에서 일어나는 사건 A가 각 사상의 사건이 일어날 확률과 사상에 대한 사건 A의 조건부 확률의 곱의 총합과 같다는 법칙이다. 베이즈 정리(Baye..

전공/머신러닝 2021.08.22

[머신러닝]선형분류모형(상)

분류(Classification)는 입력된 데이터의 클래스(특정한 그룹을 의미하는 이산적인 값)를 예측하는 것이다. 분류는 회귀와 같이 지도학습에 속하며 학습 데이터로 입력과 클래스 값을 함께 제공하여 클래스에 대한 입력 데이터의 함수 형태의 모델을 학습시켜야 한다. 회귀 분석과 비슷하나 예측하고자 하는 값이 연속적인 값이 아닌 이산적인 값(클래스)에 해당한다. 학습된 모델의 분류 기준을 그래프 상에 나타낸 것을 결정 경계(decision boundary)라고 한다. 결정 경계(decision boundary)는 입력 데이터를 클래스에 따라 분류했을 때 그룹 간에 생기는 경계를 의미한다. 분류 모델의 성능 평가 분류 모델의 성능을 평가할 때 여러 가지 척도를 사용한다. 그 척도에는 정확도(Accuracy..

전공/머신러닝 2021.08.22

[머신러닝]선형회귀분석(하)

머신러닝으로 학습된 모델 성능 평가 머신러닝 알고리즘을 통해 모델은 학습 데이터에 대한 오차를 감소시켜 나간다. 하지만 사용자가 원하는 모델은 임의의 독립변수 값에 대해 적절한 종속 변수 값을 추정하는 모델이다. 즉, 일반화 오차(generalization error)가 적은 모델은 원하는 것이다. 따라서 학습된 모델의 일반화 오차를 평가하기 위해서는 학습에 사용되지 않은 임의의 테스트 데이터를 선택해야만 한다. 과적합(overfitting)과 과소적합(underfitting) 과적합은 모델이 학습데이터 추정에 초점이 맞추어져 일반적인 데이터에 대해서는 적절한 추정을 하지 못하는 상황이며, 과소적합은 학습이 제대로 되지 않아 모델의 성능이 떨어지는 상황이다. 과소적합의 경우 학습 데이터의 양을 늘려서 충..

전공/머신러닝 2021.08.22

[머신러닝]선형회귀분석(상)

회귀분석 독립 변수와 종속 변수 사이의 관계를 선형으로 가정하고 함수의 형태를 학습하는 알고리즘입니다. 입력되는 독립 변수에는 양적 입력, 질적 입력이 있으며 그 선형성 확립을 위한 그것들의 변환까지 포함됩니다. 양적 입력의 경우 연속적인 값으로 값끼리 연산이 가능하며 질적 입력인 경우 서로 연산이 불가능하기 때문에 one hot coding(하나의 항목만 1(참)으로 표시하는 방식)을 통해 값을 표현합니다. 단순회귀분석 단순회귀분석은 회귀분석 중 1개의 독립변수와 종속변수 사이의 관계를 학습하는 기법입니다. 수식으로 y=bx+a+e로 표현할 수 있으며, a는 y절편, b는 회귀계수, e는 오차를 의미합니다. 오차 e는 독립변수 xi 값 각각에 대해 독립적으로 존재하는 확률변수이며 N(0, σ^2)의 정..

전공/머신러닝 2021.07.12

[머신러닝]머신러닝이란?

최근 알파고 사건을 발단으로 인공지능에 대한 관심이 높아지고 있다. 인공지능은 무엇이고, 이에 수반하는 머신러닝은 도대체 무엇인가? 인공지능(Artificial Intelligence)는 strong AI와 weak AI로 구분된다. strong AI(Artifical General Inteligence)는 사람과 같이 스스로 생각하고, 여러 분야의 문제를 훌륭하게 해결할 수 있는 AI이다. weak AI(Narrow AI)는 특정 분야의 문제에 대해서만 뛰어난 해결 능력을 보이는 AI이다. 머신러닝은 약한 인공지능(weak AI)를 구현하는 알고리즘의 일종이다. 컴퓨터 프로그램이 경험을 통해 자동으로 개선되도록 하는 알고리즘이다. 구체적으로 말해서, 어떠한 측정 기준을 가지는 분야의 작업이 어떠한 경험..

전공/머신러닝 2021.07.12