분류 알고리즘

    [기계학습] KNN ( K-Nearest neighborhood ) k-최근접 이웃

    KNN (K-Nearest neighborhood) 이란? K-최근접 이웃 K는 갯수를 의미한다. ( 3NN , 5NN , 10NN ) 주변의 관측치들의 정보를 이용해서 새로운 관측치의 분류를 하게 된다. 비지도학습(Unsupervised Learning) 의 간단한 예시 아래와 같은 경우, 녹색 원(새로운 관측치)은 무엇으로 분류되어야 할까? 빨강? 파랑? 실선을 기준(K=3)으로 분류를 했을 경우는 빨강의 갯수가 더 많아서 빨강으로 분류 점선을 기준(K=5)으로 분류를 했을 경우는 파랑의 갯수가 더 많아서 파랑으로 분류 이렇게 k를 기준으로 새로운 데이터가 빨간색일지 파랑색일지 분류하는 것이 knn 알고리즘이다. 그렇다면 k는 어떻게 정하는 가? 만약 k가 너무 크다면? 미세한 경계부분은 잘못 분류할..