2020 年 7月 2 日随笔档案 - Mrterrific

2020年7月2日

摘要： - 实现流程 - 创建一个工程 - 创建一个基于CrawlSpider的爬虫文件 - 修改当前的爬虫文件： - 导包：from scrapy_redis.spiders import RedisCrawlSpider - 将start_urls和allowed_domains进行注释 - 添加一个新阅读全文

posted @ 2020-07-02 11:07 Mrterrific 阅读(581) 评论(0) 推荐(0) 编辑

(六)基于Scrapy爬取网易新闻中的新闻数据

摘要：需求：爬取这国内、国际、军事、航空、无人机模块下的新闻信息 1.找到这五个板块对应的url 2.进入每个模块请求新闻信息我们可以明显发现‘’加载中‘’，因此我们判断新闻数据是动态加载出来的。 3.拿到新闻的标题和详情url 4.请求详情页获取新闻内容 5.思路：思路已经很清晰了，请求五大板块拿到阅读全文

posted @ 2020-07-02 10:50 Mrterrific 阅读(2015) 评论(0) 推荐(0) 编辑

(七)多线程爬取牛客网并生成词云图

摘要：异步爬取牛客网帖子信息并作出高频词汇词云图流程分析： 1.打开对应的url='https://www.nowcoder.com/discuss?type=0&order=0' 2.获取每一条帖子的通用的标签位置不难看出每一条帖子都在li标签下，因此我们应该首先定位到ul标签下的所有li标签，再对阅读全文

posted @ 2020-07-02 10:19 Mrterrific 阅读(480) 评论(0) 推荐(0) 编辑

Mrterrific

公告