기계학습

    [기계학습] KNN ( K-Nearest neighborhood ) k-최근접 이웃

    KNN (K-Nearest neighborhood) 이란? K-최근접 이웃 K는 갯수를 의미한다. ( 3NN , 5NN , 10NN ) 주변의 관측치들의 정보를 이용해서 새로운 관측치의 분류를 하게 된다. 비지도학습(Unsupervised Learning) 의 간단한 예시 아래와 같은 경우, 녹색 원(새로운 관측치)은 무엇으로 분류되어야 할까? 빨강? 파랑? 실선을 기준(K=3)으로 분류를 했을 경우는 빨강의 갯수가 더 많아서 빨강으로 분류 점선을 기준(K=5)으로 분류를 했을 경우는 파랑의 갯수가 더 많아서 파랑으로 분류 이렇게 k를 기준으로 새로운 데이터가 빨간색일지 파랑색일지 분류하는 것이 knn 알고리즘이다. 그렇다면 k는 어떻게 정하는 가? 만약 k가 너무 크다면? 미세한 경계부분은 잘못 분류할..

    [기계학습] 나이브 베이즈 분류 - Naive bayes classifier

    나이브 베이즈 분류에 대해서 알아보기 전에 먼저 조건부 확률에 대해서 알아보자. 조건부 확률이란? B가 주어졌을 때 사건 A의 조건부 확률 : 자료가 주어졌을 때 ( 조건을 주었을 때 ) 어떤 값의 확률을 뜻한다. 자세한 사항은 아래링크 2020/03/27 - [Data Science/Statistics] - [기초통계] 수학적 개념 ( 확률의 기초 , 확률 변수 , 확률 분포 ) [기초통계] 수학적 개념 ( 확률의 기초 , 확률 변수 , 확률 분포 ) 확률 확률 실험 ( Random experiment): 다음과 같은 속성을 지닌 관찰이나 인위적인 실험 실험결과는 미리 알 수 없다. ( ex 주사위에서 뭐가 나올지 모른다 ) 실험에서 일어날 수 있는 모든 결과는 acdongpgm.tistory.com ..

    [기계학습] 변수 선택법 ( Feedforward Selection , Backward Elimination , Stepwise)

    Machine Learning 기계학습 머신러닝 변수 선택법(모델 선택) 변수가 여러 개 일 때 최선의 변수 조합을 찾아내는 기법 변수의 수가 p개일 때 변수의 총 조합은 2^p 으로 변수 수가 증가함에 따라 변수 조합의 수는 기하급수적으로 증가 총 변수들의 조합 중 최선의 조합을 찾기 위한 차선의 방법 * 변수가 많다고 무조건 좋은 것은 아님 적합성이 높은 중요한 변수를 조합하는 것이 중요하다. 전진선택법 (Feedforward Selection) 변수를 추가해가며 성능지표를 비교해가는 방법 AIC 혹은 BIC 기준으로 성능을 비교해가며 변수를 추가할지 말지 선택하는 방법 AIC가 가장 낮은 모델을 선택한다. x3의 변수를 추가하자 성능이 나빠지기 때문에 x3는 추가하지 않고 x2 까지만 선택한다. 후..

    [기계학습]다중공선성 , 회귀모델의 성능지표 ( AIC , BIC )

    machine learning 다중공선성(Multicollinearity) 독립변수들이 강한 선형관계에 있을때 다중공선성이 있다고 한다. 변수들을 하나씩 회귀분석 했을때는 문제가 없었지만. 여러개의 변수를 다중회귀분석을 했을 때 한 변수의 회귀계수가 낮게 측정이되고 p-value도 높아지게된다. 이러한 현상에 대해서 변수들간의 다중공선성(Multicollinearity)이 있다고 한다. 잘못된 변수해석, 예측 정확도 하락 등을 야기시킨다. Y의 변동은 정해져 있는 상태에서 변수가 여러개일 때 변동성이 겹칠수가있다. 설명력(변동성)이 겹치게 되면 각각의 변수들이 중복으로 가져갈 수 가 없다. * X1 변수가 이미 차지한 설명력(변동성)을 X2가 중복으로 차지할 수 없으므로 X1과 X2 의 교집합은 X2가 ..

    [기계학습]회귀분석 , 회귀계수 추정 , Matrix 미분 활용

    회귀분석이란? 회귀 분석에 들어가기 전에 먼저 지도 학습(Supervised Learnig)과 비지도 학습(Unsupervised Learning)에 대해서 알아봅시다. 2020/03/19 - [데이터 사이언스/머신러닝] - [기계학습] 2. 지도 학습과 비지도 학습 [기계학습] 2. 지도학습과 비지도학습 지도학습(supervised learning) Y = f (x) 에 대하여 입력변수 (X) 와 출력변수 (Y) 의 관계에 대하여 모델링하는 것 (Y에 대하여 예측 또는 분류하는 문제) 회귀 (regression) : 입력 변수 X에 대하여 연속형 출.. acdongpgm.tistory.com 회귀분석은 지도 학습에 한 종류이며 Y = f(x)에 대하여 입력 변수(X)와 출력 변수 (Y)의 관계에 대하여..

    [기계학습]Machine Learning의 개념

    머신러닝(Machine Learning)이란? 인공 지능의 한 분야로, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야를 말한다. 출처 : 위키피디아 한국어로 직역하면 기계학습, 인간이 하나부터 열까지 직접 가르치는 기계를 의미하는 것이 아니라, 학습할 거리를 일단 던져놓으면 이걸 가지고 스스로 학습하는 기계를 의미합니다. 머신러닝은 무엇(X)으로 무엇(Y)를 예측하고싶을 때 사용한다. 행렬(Matrix)로 이루어진 데이터를 가지고 머신러닝을 진행합니다. X(독립변수) : 성별 , 키 , 몸무게 , 체지방 , BMI지수 , 폐활량 Y(종속변수) : 흡연여부 성별 , 키 , 몸무게 , 체지방, BMI지수 , 폐활량을 가지고 머신러닝 과정을 거치면 흡연을 하는 지 안하는 지 예측할 수 있다,..