데이터 전처리

    [Python]. multiProcessing 대용량 빅데이터 구간별로 전처리하기

    numpy 데이터를 DB 삽입 하려고하다보니 형식이 맞지않아 삽입을 할 수 없는 상황이 생겼다. 그래서 Python의 flaot 형태로 변경해서 삽입하려고 시도했고 numpy 에서 tolist() 함수를 통해 Python float 형태로 변경하면 FP형식이 유지되지않는다. **numpy FP16을 Python으로 변환해도 FP32로 바뀌어서 변환된다. 그래서 numpy 형식을 python float32 형태로 변경하고 그것을 round 함수를 통해 4째자리까지만 잘라내려고한다.(FP16) 총 256차원의 7,000,000만건의 벡터(Vector) 데이터를 전처리해야했고 생각없이 코드를 작성했더니 많은 시간(10분이상)이 소요되었고 중간중간 병목현상이 발생하였다. 이때 개념으로만 알고있던 멀티 프로세싱이..

    [데이터 전처리]. pandas Dataframe, Series 특수문자 제거하기

    문자열(string) 데이터에 특수문자들이 있으면 파이썬으로 처리하기에 불편한 점이 한 두 가지가 아니다. 특히 자연어 처리에 있어서는 특수문자는 골치덩어리 (제거하기도 애매한 것들이 있음). 이번엔 다 필요없고 문자만 남기고 다 지워버리는 방법이다. 위에 데이터를 보면 ♡, [ , ] , ! , & 등 특수문자들이 보인다. 이런 것 다 없애보자. 없애는 방법은 간단하다. 정규표현식을 사용한다. df["title"] = df["title"].str.replace(pat=r'[^\w]', repl=r'', regex=True) replace( ) 함수는 조건에 맞는 것을 다른 것으로 대체 해주는 함수. r'[^\w]' 는 모든 특수문자를 뜻하는 정규 표현식. df["title"].str 을 하면 글자를 하..

    [데이터 전처리] . 데이터 구간화 ( Data binning )

    데이터의 구간을 나눠보자 Equal width 값으로 구간을 나눠주는 구간화 방법 Equal frequency 빈도 수로 구간을 나눠주는 구간화 방법 샘플데이터 raw_data= {'regiment':['Nighthawks','Nighthawks','Nighthawks','Nighthawks','Dragons','Dragons','Dragons','Dragons','Scouts','Scouts','Scouts','Scouts'], 'company':['1st','1st','2nd','2nd','1st','1st','2nd','2nd','1st','1st','2nd','2nd'], 'postTestScore':[25,94,57,62,70,25,94,57,62,70,62,70]} df = pd.DataFra..