Acdong
Learn by doing
Acdong
전체 방문자
오늘
어제
  • 분류 전체보기
    • Economy
      • Saving Money
    • Self-improvement
    • Thoughts
    • Machine learning
      • Deep Learning
      • Chatbot
      • NLP
    • MLops
      • AWS
      • Container
      • Serving
    • Computer Vision
    • Data Science
      • ADsP
      • R
    • Project
    • Python
      • Data Structure & Algorithm
    • C,C++
    • API
      • ElasticSearch
    • Error Note
    • Network
    • RDBMS
      • SQL

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

  • [GitHub]

인기 글

태그

  • pandas
  • c포인터
  • 이미지 전처리
  • 데이터 전처리
  • R그래프
  • Numpy
  • 기계학습
  • R시각화
  • SentenceTransformer
  • 머신러닝
  • plot()
  • R
  • nlp
  • 다중공선성
  • 회귀계수
  • Python
  • 포인터
  • 어텐션
  • sbert
  • 존댓말 반말 분류

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
Acdong

Learn by doing

Machine learning/NLP

[NLP]. Ray와 Sklearn Pipeline을 사용하여 Pandas 데이터 전처리하기

2023. 4. 5. 15:25
728x90
import pandas as pd
import ray
import re
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import FunctionTransformer

# 예시 데이터프레임
df = pd.DataFrame({'question': ['Q1', 'Q2', 'Q3'],
                   'answer': ['<p>Answer 1</p>', '<span>Answer 2</span>', '<div>Answer 3</div>']})

# HTML 태그 제거 함수
@ray.remote
def remove_html_tags(text):
    clean_text = re.sub('<.*?>', '', text) # 정규식을 이용하여 HTML 태그 제거
    return clean_text

# 데이터프레임의 'answer' 칼럼에 ray를 사용하여 HTML 태그 제거하는 함수
def remove_html_tags_parallel(texts):
    return ray.get([remove_html_tags.remote(text) for text in texts])

# Pipeline 정의
pipeline = Pipeline([
    ('html_tags_removal', FunctionTransformer(remove_html_tags_parallel))
])

# 데이터프레임의 'answer' 칼럼에 Pipeline 적용
result = pipeline.fit_transform(df['answer'])

print(result)
반응형
저작자표시 비영리 (새창열림)

'Machine learning > NLP' 카테고리의 다른 글

[NLP]. 한국어 메신저(구어체)대화 맞춤법(typos) 오타 교정기(Corrector) 모델 : Korean Typos(Spelling) Corrector Using Deep Learning  (0) 2023.06.25
[NLP]. 크로스 인코더(Cross Encoder) Onnx Runtime 양자화 하기  (0) 2023.05.16
[NLP]. HuggingFace Tokenizer에 token 추가(add)하기  (0) 2023.02.27
[NLP]. MultipleNegativesRankingLoss 적용기(Sentence Transfomer)  (0) 2023.02.21
[NLP]. 인공지능에서 골드 라벨(Gold Label)은 뭘까? (feat. ChatGPT)  (0) 2023.02.21
    'Machine learning/NLP' 카테고리의 다른 글
    • [NLP]. 한국어 메신저(구어체)대화 맞춤법(typos) 오타 교정기(Corrector) 모델 : Korean Typos(Spelling) Corrector Using Deep Learning
    • [NLP]. 크로스 인코더(Cross Encoder) Onnx Runtime 양자화 하기
    • [NLP]. HuggingFace Tokenizer에 token 추가(add)하기
    • [NLP]. MultipleNegativesRankingLoss 적용기(Sentence Transfomer)
    Acdong
    Acdong
    E-mail : alswhddh@naver.com / 자연어처리와 MLops 를 연구하고 있는 스타트업 개발자입니다.

    티스토리툴바