728x90
중복된 값 확인하기.
df.duplicated() # True , False 반환
df[df.duplicated] # 중복행 반환
이 함수를 사용하면 중복값이 있는지 Boolean 마스크로 확인할 수 있다.
중복된 값 제거하기
1. 중복된 행들을 제거하고 unique 한 행들만 남기기
df.drop_duplicates()
2. 중복된 것들 중 하나만 남기고 제거하기
df.drop_duplicates(['title'],keep='last')
이렇게 하면 title 행에 있는 중복값들 중에서 keep='last' 즉 , 마지막에 있는 데이터만 남기고 나머지를 다 날린다.
반응형
'Machine learning' 카테고리의 다른 글
[기계학습]. 정형데이터에서 시도해볼 수 있는 전략들 (0) | 2021.02.01 |
---|---|
[기계학습] Kernel Support Vector Machines ( KSVMs , 커널 서포트 벡터 머신) (0) | 2021.01.12 |
[데이터 전처리]. pandas Dataframe, Series 특수문자 제거하기 (0) | 2020.12.04 |
[기계학습]. Cost functions (loss function) 비용 함수 (0) | 2020.11.03 |
[기계학습]. Gradient descent ( 경사하강법) 간단히 알아보기. (0) | 2020.11.03 |