딥러닝

    [NLP]. 한국어 존댓말/반말 분류모델 (formal classifier)

    2021.10.14 - [Data Science/NLP] - [전처리]. 한국어 존댓말과 반말을 구별하는 방법(feat. komoran) [전처리]. 한국어 존댓말과 반말을 구별하는 방법(feat. komoran) 한국어는 영어와 다르게 존댓말(높힘말)과 반말(낮춤말)이 존재한다. 그래서 존댓말을 반말로 바꿔주고 반말을 존댓말로 바꿔주는 모델이 있으면 좋겠지만 (실제로 연구가 많이 진행되었지만 acdongpgm.tistory.com 1. 개발 배경 오래전에 존댓말 , 반말을 한국어 형태소 분석기로 분류하는 간단한 방법을 소개했다. 하지만 이 방법을 실제로 적용하려 했더니, 많은 부분에서 오류가 발생하였다. 예를 들면) '저번에 교수님께서 자료 가져오라했는데 기억나?' 라는 문구를 "께서"라는 존칭때문에 ..

    [Deep Learning] loss function - Cross Entropy

    딥러닝에서 손실함수의 종류는 여러가지가 있다. 하지만 cross entropy 는 잘 이해하지 못했는데 여기서 쉽게 이해한 내용을 정리해보고자 한다. Cross-entropy 란? 틀릴 수 있는 정보(머신러닝 모델의 output) 로 부터 구한 불확실성 정보의 양이다. 잘 이해가 안되지만 밑에 예제를 살펴보자 여기서 Cross entropy 값은 딥러닝 분류문제에서 softmax 를 통해 나온 결과값과 oneHotEncoding 되어있는 정답 값의 차이라고 보면 된다. 여기서 Q를 예측한 값(Estimated PRobability) 이라고 하고 P를 정답 값(True Probability)이라고 생각해보자. cross entropy는 정보의 량(Q)에 log qi 분의 2를 사용하기 때문에 모델의 예측값..