我们每天接受到的文字信息中,新闻内容占据了相当的部分。在此次的课程联系中,我会带着大家完成一个新闻热词的分析与关联人物的分析。
经过本次的训练,大家能掌握的能力有:
文件读取的方法; tf-idf重点单词提取的方法; collection Counter的使用 你在这次训练中,做什么? 把这个notebook中的所有代码自己手敲一遍; 解答notebook中预留的问题
文件的读取与分词 我们的此次使用的文件,存放在 "datas/articles_9k"中
content
= open('dataset/article_9k.txt')
CHARACTERS
= content
.read
()
len(CHARACTERS
)
切割成句子
CHARACTERS
[:100]
图像描述子
HOG特征:https://zhuanlan.zhihu.com/p/40960756 LBP特征: https://www.jianshu.com/p/8d96ceb45f74 Haar-like特征:https://zhuanlan.zhihu.com/p/38056144