특수문자제거

    [데이터 전처리]. pandas Dataframe, Series 특수문자 제거하기

    문자열(string) 데이터에 특수문자들이 있으면 파이썬으로 처리하기에 불편한 점이 한 두 가지가 아니다. 특히 자연어 처리에 있어서는 특수문자는 골치덩어리 (제거하기도 애매한 것들이 있음). 이번엔 다 필요없고 문자만 남기고 다 지워버리는 방법이다. 위에 데이터를 보면 ♡, [ , ] , ! , & 등 특수문자들이 보인다. 이런 것 다 없애보자. 없애는 방법은 간단하다. 정규표현식을 사용한다. df["title"] = df["title"].str.replace(pat=r'[^\w]', repl=r'', regex=True) replace( ) 함수는 조건에 맞는 것을 다른 것으로 대체 해주는 함수. r'[^\w]' 는 모든 특수문자를 뜻하는 정규 표현식. df["title"].str 을 하면 글자를 하..