불용어 제거한 데이터셋 만들기 | How to Make Stop Words-Removed Datasets (13.04.2022.)

Bachelor of Business Administration @PNU/Marketing Analytics

불용어 제거한 데이터셋 만들기 | How to Make Stop Words-Removed Datasets (13.04.2022.)

Hazel Y. 2022. 4. 21. 15:35

다음은 불용어를 제거한 데이터셋을 만들기 위한 코드이다.

The followings are the steps and codes to make and save datasets without stop words.

1. Import necessary packages.

import pandas as pd

import re

from nltk.corpus import stopwords

2. Download the stopwords package.

nltk.download('stopwords')

3. Import the datasets.

suc = pd.read_csv('suc_bert.csv')
un = pd.read_csv('un_bert.csv')

4. Define the function for preprocessing (including removing stop words)

def data_text_cleaning(data):
 
    # 영문자 이외 문자는 공백으로 변환
    only_english = re.sub('[^a-zA-Z]', ' ', data)
 
    # 소문자 변환
    no_capitals = only_english.lower().split()
 
    # 불용어 제거
    stops = set(stopwords.words('english'))
    no_stops = [word for word in no_capitals if not word in stops]
    
    return no_stops

5. Preprocess and save CSV files.

# successful product reviews
for i in range(len(suc)):
    
    review = str(suc['review'][i])
    suc['review'][i] = data_text_cleaning(review)
    suc['review'][i] = " ".join(suc['review'][i])
    
suc.to_csv('suc_stopremoved.csv')

# unsuccessful product reviews
for i in range(len(un)):
    
    u_review = str(un['review'][i])
    un['review'][i] = data_text_cleaning(u_review)
    un['review'][i] = " ".join(un['review'][i])
    
un.to_csv('un_stopremoved.csv')

* Unauthorized copying and distribution of this post are not allowed.

'Bachelor of Business Administration @PNU > Marketing Analytics' 카테고리의 다른 글

토픽별 BERT 감성 분석 \| BERT Sentiment Analysis by Topics (13.04.2022.) (0)	2022.04.22
BERT 토픽 모델링 \| BERT Topic Modeling (13.04.2022.) (0)	2022.04.21
BERT 감성 분석 - 2 \| BERT Sentiment Analysis - 2 (13.04.2022.) (0)	2022.04.21
BERT 감성 분석 - 1 \| BERT Sentiment Analysis - 1 (13.04.2022.) (0)	2022.04.20
토픽 별 감성 분석 \| Sentiment Analysis for Each Topic (30.03.2022.) (0)	2022.04.19

현재글불용어 제거한 데이터셋 만들기 | How to Make Stop Words-Removed Datasets (13.04.2022.)

- 인프제가 생각을 쏟아내는 곳 - INFJ, a professional overthinker 공스타: @gongstabyhazel

감성 분석, Python, marketing analytics, 독서기록, Topic Modeling, 생각, 리눅스, sentiment analysis, 석사, 매일의생각, 책추천, 파이썬, Linux, 일상, 네덜란드, 유학생, Netherlands, 생물정보학, 일기, bioinformatics,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Hazel's Life Journey