728x90
import pandas as pd
import ray
import re
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import FunctionTransformer
# 예시 데이터프레임
df = pd.DataFrame({'question': ['Q1', 'Q2', 'Q3'],
'answer': ['<p>Answer 1</p>', '<span>Answer 2</span>', '<div>Answer 3</div>']})
# HTML 태그 제거 함수
@ray.remote
def remove_html_tags(text):
clean_text = re.sub('<.*?>', '', text) # 정규식을 이용하여 HTML 태그 제거
return clean_text
# 데이터프레임의 'answer' 칼럼에 ray를 사용하여 HTML 태그 제거하는 함수
def remove_html_tags_parallel(texts):
return ray.get([remove_html_tags.remote(text) for text in texts])
# Pipeline 정의
pipeline = Pipeline([
('html_tags_removal', FunctionTransformer(remove_html_tags_parallel))
])
# 데이터프레임의 'answer' 칼럼에 Pipeline 적용
result = pipeline.fit_transform(df['answer'])
print(result)
반응형
'Machine learning > NLP' 카테고리의 다른 글
[NLP]. 한국어 메신저(구어체)대화 맞춤법(typos) 오타 교정기(Corrector) 모델 : Korean Typos(Spelling) Corrector Using Deep Learning (0) | 2023.06.25 |
---|---|
[NLP]. 크로스 인코더(Cross Encoder) Onnx Runtime 양자화 하기 (0) | 2023.05.16 |
[NLP]. HuggingFace Tokenizer에 token 추가(add)하기 (0) | 2023.02.27 |
[NLP]. MultipleNegativesRankingLoss 적용기(Sentence Transfomer) (0) | 2023.02.21 |
[NLP]. 인공지능에서 골드 라벨(Gold Label)은 뭘까? (feat. ChatGPT) (0) | 2023.02.21 |