Machine learning

[데이터 전처리]. pandas Dataframe 중복된 값 제거하기

Acdong 2020. 12. 4. 14:33
728x90

중복된 값 확인하기.

df.duplicated() # True , False 반환

df[df.duplicated] # 중복행 반환

이 함수를 사용하면 중복값이 있는지 Boolean 마스크로 확인할 수 있다.


중복된 값 제거하기

1. 중복된 행들을 제거하고 unique 한 행들만 남기기

df.drop_duplicates()

2. 중복된 것들 중 하나만 남기고 제거하기

df.drop_duplicates(['title'],keep='last')

이렇게 하면 title 행에 있는 중복값들 중에서 keep='last' 즉 , 마지막에 있는 데이터만 남기고 나머지를 다 날린다.

 

 

반응형