思路:
1.读取需要进行分词的文件
2.判断所提取的句子是否存在防止因为意外情况导致的异常情况
3.在分词之前处理句子中的符号,防止无意义的符号加入分词结果中
4.将分词结果写入文件中
5.将文件以csv格式进行存储
代码实现:
import pandas as pd
import numpy as np
import re
import math
import jieba
T_data =pd.read_csv('stock_comments_raw.csv')
train_data=T_data.drop('created_time',axis=1)
add_punc=',。、【 】 “”:;^_()《》‘’{}?[]!⑦()、%^>℃:.”“^-——=@¥![\s+\.\!\/_,$%^*(+]+|[+——!,。??、~@#¥%……&*()]'
train_fin=pd.DataFrame(columns=('created_time','title'))
for i in range(len(train_data)):
result=[]
data=train_data["title"][i]
if isinstance(data,float):
continue
for text in data :
if text not in (add_punc):
result.append(text)
#print(data)
seg_list = jieba.cut("".join(result))
train_line=" ".join(seg_list)
#print(i,train_line)
T_data.at[i,'title']=train_line
#print(T_data)
T_data.to_csv('stock_comments_seg.csv', index=False)
结果生成stock_comments_seg.csv文件
分词结果部分如下
输入
保险石油券商,究竟是护盘还是出货! 只要在证券交易所工作过的人,出来社会上一行都干不走。都认为是个骗子。 新一轮股灾开启!玩玩! 输出
保险 石油 券商 究竟 护盘 出货 证券 交易所 工作 人 出来 社会 上 一行 都 干 不 走 都 认为 骗子 新一轮 股灾 开启 玩玩