随笔分类 -  爬虫项目

摘要:Django-Scrapy生成后端json接口Django-Scrapy生成后端json接口: 网上的关于django-scrapy的介绍比较少,该博客只在本人查资料的过程中学习的,如果不对之处,希望指出改正; 学习点: 实现效果 django与scrapy的创建 setting中对接的位置和代码段 scrapy_djangoitem使用 sc 阅读全文
posted @ 2020-10-02 16:42 Xbhog 阅读(520) 评论(0) 推荐(1) 编辑
摘要:scrapy分布式浅谈+京东示例: 学习目标: 分布式概念与使用场景 浅谈去重 浅谈断点续爬 分布式爬虫编写流程 基于scrapy_redis的分布式爬虫(阳关院务与京东图书案例) 环境准备: 下载redis-cli(客户端)以及redis-server(服务端) 安装Another Redis D 阅读全文
posted @ 2020-07-27 08:59 Xbhog 阅读(449) 评论(0) 推荐(0) 编辑
摘要:声明: 1)仅作为个人学习,如有冒犯,告知速删! 2)不想误导,如有错误,不吝指教! 3)文章配套视频:http://www.bilibili.com/video/BV1aC4y1a7nR?share_medium=android&share_source=copy_link&bbid=XY1C29 阅读全文
posted @ 2020-07-25 16:29 Xbhog 阅读(720) 评论(0) 推荐(0) 编辑
摘要:拉钩重写: 1. 实现方式: scrapy+selenium 实现scrapy中的spider即可 2. 实现目标: 为实现对接之前的公司项目模板,实现统一化 3. 实现思路: 对关键字进行汉字转字母,进行URL拼接操作,然后请求; 通过selenium获取到网页源码,进行信息解析; yield返回 阅读全文
posted @ 2020-07-19 16:41 Xbhog 阅读(174) 评论(0) 推荐(0) 编辑
摘要:题目:给定两个数组,编写一个函数来计算它们的交集。 示例 1: 示例 2: 说明: 输出结果中的每个元素一定是唯一的。 我们可以不考虑输出结果的顺序。 输出结果中的每个元素一定是唯一的。 我们可以不考虑输出结果的顺序。 首先说一下我自己的(菜鸡)思路:我先是想先去重第第一个数组(nums1),然后循 阅读全文
posted @ 2019-10-26 22:36 Xbhog 阅读(295) 评论(0) 推荐(0) 编辑
摘要:最近哪吒大火,所以我们分析一波哪吒的影评信息,分析之前我们需要数据呀,所以开篇我们先讲一下爬虫的数据提取;话不多说,走着。 首先我们找到网站的url = "https://maoyan.com/films/1211270",找到评论区看看网友的吐槽,如下 阅读全文
posted @ 2019-10-26 22:29 Xbhog 阅读(729) 评论(3) 推荐(0) 编辑
摘要:今天制作一个优美库图片小程序,网址http://www.umei.cc/bizhitupian/, 爬虫的相关流程:获取目标网址-获取数据-存储数据。下面是该网页的内容: 第一步:找到该网站下的便签,找到该标签网页下所有的url,这里的思路是获取该标签下的页数,通过循环拼接所有的url。 对电脑壁纸 阅读全文
posted @ 2019-10-26 22:23 Xbhog 阅读(973) 评论(0) 推荐(0) 编辑
摘要:今天分析一波蜂鸟网,话不多说,先来一波网址,url =“ http://image.fengniao.com/index.php#p=1”,首先一个美女图片瞧瞧, 分析一波网页,找到网站的分页特点,该网站请求方式为ajax请求,那么各位看官瞧仔细了,F12打开,鼠标轱辘往下翻,你会发现: 有什么发现 阅读全文
posted @ 2019-10-26 22:13 Xbhog 阅读(374) 评论(0) 推荐(0) 编辑
摘要:这是爬虫的第一部分,对于python基础与网络编程部分重点突出,主要以每次小项目为主;更新时间不定,随缘之人,缘分到了,文章就出来了。 简单说下这次练手的小东西想法:在暑假的时候,看见自己的电脑壁纸有点。。。。,LOW,所以想着做一个WIN下的壁纸切换小程序。这次只是图片提取部分,话不多说来看看代码 阅读全文
posted @ 2019-10-26 22:08 Xbhog 阅读(390) 评论(0) 推荐(0) 编辑
摘要:今天我们来盘一下csdn,做一个小程序,为什么做这个呢?今天小编看着我的博客的阅读数,唉,惨不忍睹,没办法,只能想一些........呃呃呃呃,你懂的。 话不多说,分析一波csdn的阅读数,计数原理是每次进入页面记作一次,所以我们很简单的构建一个访问的小爬虫就好了,那么开始操作。 根据上面的代码,你 阅读全文
posted @ 2019-10-26 21:59 Xbhog 阅读(1690) 评论(6) 推荐(1) 编辑

点击右上角即可分享
微信分享提示