jieba分词简单使用

    技术2022-07-11  70

    思路:

    1.读取需要进行分词的文件

    2.判断所提取的句子是否存在防止因为意外情况导致的异常情况

    3.在分词之前处理句子中的符号,防止无意义的符号加入分词结果中

    4.将分词结果写入文件中

    5.将文件以csv格式进行存储

    代码实现:

    import pandas as pd import numpy as np import re import math import jieba T_data =pd.read_csv('stock_comments_raw.csv') train_data=T_data.drop('created_time',axis=1) add_punc=',。、【 】 “”:;^_()《》‘’{}?[]!⑦()、%^>℃:.”“^-——=&#@¥![\s+\.\!\/_,$%^*(+]+|[+——!,。??、~@#¥%……&*()]' train_fin=pd.DataFrame(columns=('created_time','title')) for i in range(len(train_data)): result=[] data=train_data["title"][i] if isinstance(data,float): continue for text in data : if text not in (add_punc): result.append(text) #print(data) seg_list = jieba.cut("".join(result)) train_line=" ".join(seg_list) #print(i,train_line) T_data.at[i,'title']=train_line #print(T_data) T_data.to_csv('stock_comments_seg.csv', index=False)

    结果生成stock_comments_seg.csv文件

    分词结果部分如下

    输入

    保险石油券商,究竟是护盘还是出货! 只要在证券交易所工作过的人,出来社会上一行都干不走。都认为是个骗子。 新一轮股灾开启!玩玩! 输出

    保险 石油 券商 究竟 护盘 出货 证券 交易所 工作 人 出来 社会 上 一行 都 干 不 走 都 认为 骗子 新一轮 股灾 开启 玩玩  

    Processed: 0.013, SQL: 9