使用Python爬取中国Mooc网讨论区内所有评论

技术2023-05-21 83

最近受朋友委托,写了一个爬取中国Mooc往讨论区所有评论的程序 ,他需要这些数据写论文. 如下: 他需要爬取这些板块里所有的评论. 俗话说的好六月七月爬虫热因为这段时间许多的大学生都毕业了特此写一篇文章来记录一下可以看到评论非常的多, 人工手动去爬取工作量是非常之大, 要我想都不敢想 . 都是几千几百条评论回复的 .现在开始正文.

首先来分析一下, 很容易发现是 Ajax异步加载现在开始找接口发现是这个接口然后我们来看参数我们只看有没有跟url相关的参数发现 c0-param0 参数的number 是链接的pid值 batchId 很容易发现是13位时间戳然后我们翻页看一下还有什么相关的参数我们翻到第三页

发现c0-param2 变成了3 于是我们推断一下param0 就是当前主题下的帖子的id, param2就是控制翻页的参数, 现在我们用python模拟一下发现服务器给我们返回了数据

返回的是Unicode格式+js数据我们进行格式化一下发现数据是这样的最后提取出来就是这样的啦部分代码截图

程序运行截图

被优化后只需要修改两个参数就可以爬取一门课下所有的主题下的他帖子

Processed: 0.113, SQL: 9