Acdong
Learn by doing
Acdong
전체 방문자
오늘
어제
  • 분류 전체보기
    • Economy
      • Saving Money
    • Self-improvement
    • Thoughts
    • Machine learning
      • Deep Learning
      • Chatbot
      • NLP
    • MLops
      • AWS
      • Container
      • Serving
    • Computer Vision
    • Data Science
      • ADsP
      • R
    • Project
    • Python
      • Data Structure & Algorithm
    • C,C++
    • API
      • ElasticSearch
    • Error Note
    • Network
    • RDBMS
      • SQL

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

  • [GitHub]

인기 글

태그

  • 기계학습
  • pandas
  • R그래프
  • Python
  • 포인터
  • 회귀계수
  • 이미지 전처리
  • R
  • 어텐션
  • 존댓말 반말 분류
  • SentenceTransformer
  • plot()
  • nlp
  • 데이터 전처리
  • sbert
  • Numpy
  • 머신러닝
  • c포인터
  • R시각화
  • 다중공선성

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
Acdong

Learn by doing

Machine learning

[데이터 전처리]. pandas Dataframe 중복된 값 제거하기

2020. 12. 4. 14:33
728x90

중복된 값 확인하기.

df.duplicated() # True , False 반환

df[df.duplicated] # 중복행 반환

이 함수를 사용하면 중복값이 있는지 Boolean 마스크로 확인할 수 있다.


중복된 값 제거하기

1. 중복된 행들을 제거하고 unique 한 행들만 남기기

df.drop_duplicates()

2. 중복된 것들 중 하나만 남기고 제거하기

df.drop_duplicates(['title'],keep='last')

이렇게 하면 title 행에 있는 중복값들 중에서 keep='last' 즉 , 마지막에 있는 데이터만 남기고 나머지를 다 날린다.

 

 

반응형
저작자표시 비영리 (새창열림)

'Machine learning' 카테고리의 다른 글

[기계학습]. 정형데이터에서 시도해볼 수 있는 전략들  (0) 2021.02.01
[기계학습] Kernel Support Vector Machines ( KSVMs , 커널 서포트 벡터 머신)  (0) 2021.01.12
[데이터 전처리]. pandas Dataframe, Series 특수문자 제거하기  (0) 2020.12.04
[기계학습]. Cost functions (loss function) 비용 함수  (0) 2020.11.03
[기계학습]. Gradient descent ( 경사하강법) 간단히 알아보기.  (0) 2020.11.03
    'Machine learning' 카테고리의 다른 글
    • [기계학습]. 정형데이터에서 시도해볼 수 있는 전략들
    • [기계학습] Kernel Support Vector Machines ( KSVMs , 커널 서포트 벡터 머신)
    • [데이터 전처리]. pandas Dataframe, Series 특수문자 제거하기
    • [기계학습]. Cost functions (loss function) 비용 함수
    Acdong
    Acdong
    E-mail : alswhddh@naver.com / 자연어처리와 MLops 를 연구하고 있는 스타트업 개발자입니다.

    티스토리툴바