728x90
https://unikys.tistory.com/307
전 포스팅에서 키워드들 통한 라벨링 진행 방법을 소개했다.
하지만 문장의 길이가 길 수록 해당 키워드가 어디에 위치하고있는지 찾기가 너무 힘들었다.
문장의 길이가 길면 그 만큼 라벨링 속도 저하 발생...ㅠㅠ
그렇다고 대충보기에는 모호한 데이터들이 많았다.
"뒤지" 키워드의 경우
1) 너 뒤지고 싶냐?
2) 방을 다 뒤지고 나서도 찾을 수 없었어.
이런 키워드들이 자주 등장함.
그래서 위 링크의 방법을 통해 정확도와 느린 속도를 개선했다.
엑셀 메크로를 통해 해당 키워드의 빨간색 표시 가능
Sub highlight()
Dim cell As Range, word As String, startIndex As Integer
word = InputBox(prompt:="단어를 입력하세요", Title:="문자열 색 변환")
If Len(word) > 0 Then
For Each cell In Selection
startIndex = InStr(1, cell, word, vbBinaryCompare)
If startIndex > 0 Then
cell.Characters(startIndex, Len(word)).Font.Color = RGB(255, 0, 0)
cell.Characters(startIndex, Len(word)).Font.Bold = True
End If
Next cell
End If
End Sub
결과
이렇게 되면 표시된 키워드의 주변 단어들만 봐도 대충 문장의 의미를 파악할 수 있다.
반응형
'Machine learning > NLP' 카테고리의 다른 글
[NLP]. 도로명 주소 & 지번 주소 인식 정규표현식 (0) | 2022.01.11 |
---|---|
[NLP] Fine-tuning(파인튜닝)과 in-context learning(인컨텍스트 러닝) (0) | 2021.12.14 |
[annotation]. 텍스트 데이터 라벨링 꿀팁(1) (0) | 2021.11.12 |
[NLP]. 한국어 맞춤법 검사기 사용하기 (feat. hanspell ) (0) | 2021.10.27 |
[전처리]. 핸드폰 번호 , 계좌번호 , 주소 필터링(Python 정규표현식) (0) | 2021.10.14 |