摘要: 使用BeautifulSoup模块使用正则表达式使用到多线程爬取使用说明使用前请安装BeauifulSoup运行程序后会在当前目录下生成txt文件,内容为json格式.如下所示: {“branch_first_letter”: “S”, “branch_name”: “萨博”, “branch_id 阅读全文
posted @ 2020-08-26 16:17 亚洲小番茄 阅读(233) 评论(0) 推荐(0) 编辑
摘要: 代理池是爬虫、采集、爆破、刷单等必不可少的配备。读了一个github的py代理池的源码,简单易用免维护,也无需过多配置,该程序从网站爬取代理列表,存入SQLite数据库。定时执行爬取->存入->检查->爬取的循环以保证采集到代理IP的可用性。开两个线程,一个用做服务器对外提供代理IP,另一个用于维护 阅读全文
posted @ 2020-08-25 16:49 亚洲小番茄 阅读(561) 评论(0) 推荐(0) 编辑
摘要: 爬虫一直是python使用的一个重要部分,而许多网站也为此做了许多反爬措施,其中爬虫访问过于频繁直接封ip地址也作为一种“伤敌一千,自损八百”的方法被许多网站采用,代理ip便可以防止这种情况出现。 进行爬取和测试有效性 分析完毕开始爬取ip,直接使用第三方的requests和BeautifulSou 阅读全文
posted @ 2020-08-24 15:34 亚洲小番茄 阅读(1039) 评论(0) 推荐(0) 编辑
摘要: 我们需要让爬虫从每个网页中抽取一些数据,然后实现某些事情,这种做法被称为数据抓取。分析网页查看网页源代码,使用Firebug Lite扩展,Firebug是Joe Hewitt开发的一套与Firefox集成在一起的功能强大的web开发工具,可以实时编辑、调试和监测任何页面的CSS、HTML和Java 阅读全文
posted @ 2020-08-22 15:17 亚洲小番茄 阅读(778) 评论(0) 推荐(0) 编辑
摘要: 使用爬虫不可避免的就会遇到网站的各种封ip操作,因此就需要我们找寻代理,通过代理ip进行操作,屏蔽自己真实ip。 import requests import pymongo from lxml.html import etree class SelfIpProxy(): def __init__( 阅读全文
posted @ 2020-08-21 17:40 亚洲小番茄 阅读(534) 评论(0) 推荐(0) 编辑
摘要: 一般来说,我们在爬取其他网站的数据的时候,会遇到ip被限制的情况,这时候就需要代理ip池进行处理了 1、获取ip代理的方法 def getProxyIp(): header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) App 阅读全文
posted @ 2020-08-20 17:36 亚洲小番茄 阅读(177) 评论(0) 推荐(0) 编辑
摘要: 1 什么是网络爬虫 网络爬虫是指从网站提取数据的技术,该技术可以将非结构化数据转换为结构化数据。 网络爬虫的用途是从网站提取数据,提取的数据可以存储到本地文件并保存在系统中,也可以将其以表格的形式存储到数据库中。网络爬虫使用HTTP或Web浏览器直接访问万维网。网络爬虫或机器人抓取网页的过程是一个自 阅读全文
posted @ 2020-08-18 16:18 亚洲小番茄 阅读(545) 评论(0) 推荐(0) 编辑
摘要: 现在越来越多的人在工作中使用到爬虫,各个网站的反爬虫机制也越来越严格,下面就自己构建一个代理ip池。 手动更新ip池 1.1在setting配置文件中新增ip池 IPPOOL=[ {“ipaddr”:”61.129.70.131:8080”}, {“ipaddr”:”61.152.81.193:91 阅读全文
posted @ 2020-08-17 17:39 亚洲小番茄 阅读(922) 评论(0) 推荐(0) 编辑
摘要: 代理ip的出现和存在有什么意义,对人们的生活工作有什么帮助?代理服务器英文全称是Proxy Server,其功能就是代理网络用户去取得网络信息。形象的说:它是网络信息的中转站。在一般情况下,我们使用网络浏览器直接去连接其他Internet站点取得网络信息时,是直接联系到目的站点服务器,然后由目的站点 阅读全文
posted @ 2020-08-15 17:55 亚洲小番茄 阅读(632) 评论(0) 推荐(0) 编辑
摘要: 代理ip的使用是爬虫工作必须使用的爬取辅助工具,大数据的快速发展,很多的网站不断的维护自己的网站信息,开始设置反爬虫机制,在网站进行反爬虫限制的情况下,怎样通过反爬虫机制,提高工作效率。一:使用多线程与代理ip1、多线程方式:多线程同时开展工作采集,迅速提高工作效率和减少采集时间,需要足够的代理ip 阅读全文
posted @ 2020-05-28 16:10 亚洲小番茄 阅读(182) 评论(0) 推荐(0) 编辑