멀티프로세싱

    [Python]. multiProcessing 대용량 빅데이터 구간별로 전처리하기

    numpy 데이터를 DB 삽입 하려고하다보니 형식이 맞지않아 삽입을 할 수 없는 상황이 생겼다. 그래서 Python의 flaot 형태로 변경해서 삽입하려고 시도했고 numpy 에서 tolist() 함수를 통해 Python float 형태로 변경하면 FP형식이 유지되지않는다. **numpy FP16을 Python으로 변환해도 FP32로 바뀌어서 변환된다. 그래서 numpy 형식을 python float32 형태로 변경하고 그것을 round 함수를 통해 4째자리까지만 잘라내려고한다.(FP16) 총 256차원의 7,000,000만건의 벡터(Vector) 데이터를 전처리해야했고 생각없이 코드를 작성했더니 많은 시간(10분이상)이 소요되었고 중간중간 병목현상이 발생하였다. 이때 개념으로만 알고있던 멀티 프로세싱이..