jieba分词简单使用

技术2022-07-11 78

思路：

1.读取需要进行分词的文件

2.判断所提取的句子是否存在防止因为意外情况导致的异常情况

3.在分词之前处理句子中的符号，防止无意义的符号加入分词结果中

4.将分词结果写入文件中

5.将文件以csv格式进行存储

代码实现：

import pandas as pd import numpy as np import re import math import jieba T_data =pd.read_csv('stock_comments_raw.csv') train_data=T_data.drop('created_time',axis=1) add_punc='，。、【】 “”：；^_（）《》‘’{}？[]！⑦()、%^>℃：.”“^-——=&#@￥！[\s+\.\!\/_,$%^*(+]+|[+——！，。？?、~@#￥%……&*（）]' train_fin=pd.DataFrame(columns=('created_time','title')) for i in range(len(train_data)): result=[] data=train_data["title"][i] if isinstance(data,float): continue for text in data : if text not in (add_punc): result.append(text) #print(data) seg_list = jieba.cut("".join(result)) train_line=" ".join(seg_list) #print(i,train_line) T_data.at[i,'title']=train_line #print(T_data) T_data.to_csv('stock_comments_seg.csv', index=False)

结果生成stock_comments_seg.csv文件

分词结果部分如下

输入

保险石油券商，究竟是护盘还是出货！只要在证券交易所工作过的人，出来社会上一行都干不走。都认为是个骗子。新一轮股灾开启！玩玩！输出

保险石油券商究竟护盘出货证券交易所工作人出来社会上一行都干不走都认为骗子新一轮股灾开启玩玩

Processed: 0.010, SQL: 9