의사결정나무(decision tree) 의사결정나무는 비선형분류모델로 많이 사용되는 분류기 중 하나이며 데이터에 대한 분류 이유를 설명할 수 있다는 특징을 가지고 있다. 대부분의 머신러닝 모델들이 결과에 대한 해명을 하지 못한다는 사실에서 굉장한 장점이라는 것을 느낄 수 있다. 루트에서부터 리프까지 각 지점에 있는 기준에 의해 데이터가 순차적으로 분류된다. 또한 동일한 데이터 셋에 대해 여러 개의 다른 구조의 트리 모델을 학습시킬 수 있다. 의사결정나무 모델을 학습하는 알고리즘 중 Hunt’s algorithm은 다음과 같다. 특정 노드 A에 속해 있는 데이터들이 모두 동일한 클래스 B에 속해 있다면 노드 A는 클래스 B의 리프 노드라고 한다. 노드에 아무 데이터도 없다면 노드 A는 기본 클래스(defa..
결합 확률(joint probability)는 두 사건이 동시에 발생할 확률을 의미한다. 주변 확률(marginal probability)는 결합 확률들의 합으로 표현되는 함수로 훨씬 범위가 큰 사건의 확률을 의미한다. 조건부 확률(Conditional Probability)는 어떠한 사건이 이미 일어났다고 할 때 다른 사건이 일어날 확률을 의미한다. 이미 일어난 사건을 조건, 사전 정보(prior information)이라고 한다. 전체 확률의 법칙(Theorem of Total Probability)은 표본 공간을 서로 배반인 사상으로 분할했을 때 표본 공간에서 일어나는 사건 A가 각 사상의 사건이 일어날 확률과 사상에 대한 사건 A의 조건부 확률의 곱의 총합과 같다는 법칙이다. 베이즈 정리(Baye..
분류(Classification)는 입력된 데이터의 클래스(특정한 그룹을 의미하는 이산적인 값)를 예측하는 것이다. 분류는 회귀와 같이 지도학습에 속하며 학습 데이터로 입력과 클래스 값을 함께 제공하여 클래스에 대한 입력 데이터의 함수 형태의 모델을 학습시켜야 한다. 회귀 분석과 비슷하나 예측하고자 하는 값이 연속적인 값이 아닌 이산적인 값(클래스)에 해당한다. 학습된 모델의 분류 기준을 그래프 상에 나타낸 것을 결정 경계(decision boundary)라고 한다. 결정 경계(decision boundary)는 입력 데이터를 클래스에 따라 분류했을 때 그룹 간에 생기는 경계를 의미한다. 분류 모델의 성능 평가 분류 모델의 성능을 평가할 때 여러 가지 척도를 사용한다. 그 척도에는 정확도(Accuracy..
머신러닝으로 학습된 모델 성능 평가 머신러닝 알고리즘을 통해 모델은 학습 데이터에 대한 오차를 감소시켜 나간다. 하지만 사용자가 원하는 모델은 임의의 독립변수 값에 대해 적절한 종속 변수 값을 추정하는 모델이다. 즉, 일반화 오차(generalization error)가 적은 모델은 원하는 것이다. 따라서 학습된 모델의 일반화 오차를 평가하기 위해서는 학습에 사용되지 않은 임의의 테스트 데이터를 선택해야만 한다. 과적합(overfitting)과 과소적합(underfitting) 과적합은 모델이 학습데이터 추정에 초점이 맞추어져 일반적인 데이터에 대해서는 적절한 추정을 하지 못하는 상황이며, 과소적합은 학습이 제대로 되지 않아 모델의 성능이 떨어지는 상황이다. 과소적합의 경우 학습 데이터의 양을 늘려서 충..
회귀분석 독립 변수와 종속 변수 사이의 관계를 선형으로 가정하고 함수의 형태를 학습하는 알고리즘입니다. 입력되는 독립 변수에는 양적 입력, 질적 입력이 있으며 그 선형성 확립을 위한 그것들의 변환까지 포함됩니다. 양적 입력의 경우 연속적인 값으로 값끼리 연산이 가능하며 질적 입력인 경우 서로 연산이 불가능하기 때문에 one hot coding(하나의 항목만 1(참)으로 표시하는 방식)을 통해 값을 표현합니다. 단순회귀분석 단순회귀분석은 회귀분석 중 1개의 독립변수와 종속변수 사이의 관계를 학습하는 기법입니다. 수식으로 y=bx+a+e로 표현할 수 있으며, a는 y절편, b는 회귀계수, e는 오차를 의미합니다. 오차 e는 독립변수 xi 값 각각에 대해 독립적으로 존재하는 확률변수이며 N(0, σ^2)의 정..
최근 알파고 사건을 발단으로 인공지능에 대한 관심이 높아지고 있다. 인공지능은 무엇이고, 이에 수반하는 머신러닝은 도대체 무엇인가? 인공지능(Artificial Intelligence)는 strong AI와 weak AI로 구분된다. strong AI(Artifical General Inteligence)는 사람과 같이 스스로 생각하고, 여러 분야의 문제를 훌륭하게 해결할 수 있는 AI이다. weak AI(Narrow AI)는 특정 분야의 문제에 대해서만 뛰어난 해결 능력을 보이는 AI이다. 머신러닝은 약한 인공지능(weak AI)를 구현하는 알고리즘의 일종이다. 컴퓨터 프로그램이 경험을 통해 자동으로 개선되도록 하는 알고리즘이다. 구체적으로 말해서, 어떠한 측정 기준을 가지는 분야의 작업이 어떠한 경험..
- Total
- Today
- Yesterday
- 메이플스토리
- 너비우선탐색
- Verilog
- 취미
- 이분법
- 알고리즘
- BOJ
- 재귀함수
- Push
- 구현
- C++
- 영어 어휘
- 이진탐색
- 구조체
- 큐
- BFS
- 건이의 특제 떡국 끓이기
- C언어
- Git
- 베릴로그
- 스택
- 정렬
- 백트래킹
- backtracking
- 백준
- gem5
- 완전탐색
- 영화
- 애니메이션
- recursive
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |