摘要: 3种抓取其中数据的方法。首先是正则表达式,然后是流行的BeautifulSoup模块,最后是强大的lxml模块。 1 正则表达式 当我们使用正则表达式抓取国家(或地区)面积数据时,首先需要尝试匹配``元素中的内容,如下所示。 >>> import re >>> from chp1.advanced_ 阅读全文
posted @ 2020-09-14 16:23 亚洲小番茄 阅读(1324) 评论(0) 推荐(0) 编辑
摘要: 1 什么是网络爬虫 网络爬虫是指从网站提取数据的技术,该技术可以将非结构化数据转换为结构化数据。 网络爬虫的用途是从网站提取数据,提取的数据可以存储到本地文件并保存在系统中,也可以将其以表格的形式存储到数据库中。网络爬虫使用HTTP或Web浏览器直接访问万维网(WWW)。网络爬虫或机器人抓取网页的过 阅读全文
posted @ 2020-09-12 15:57 亚洲小番茄 阅读(1530) 评论(0) 推荐(0) 编辑
摘要: 代理服务的介绍: 我们在做爬虫的过程中经常最初爬虫都正常运行,正常爬取数据,一切看起来都是美好,然而一杯茶的功夫就出现了错误。 如:403 Forbidden错误,“您的IP访问频率太高”错误,或者跳出一个验证码让我们输入,之后解封,但过一会又出现类似情况。 出现这个现象的原因是因为网站采取了一些反 阅读全文
posted @ 2020-09-10 15:26 亚洲小番茄 阅读(998) 评论(0) 推荐(0) 编辑
摘要: 今天我将介绍20个属于我常用工具的Python库,我相信你看完之后也会觉得离不开它们。他们是: Requests.Kenneth Reitz写的最富盛名的http库。每个Python程序员都应该有它。 Scrapy.如果你从事爬虫相关的工作,那么这个库也是必不可少的。用过它之后你就不会再想用别的同类 阅读全文
posted @ 2020-09-09 15:33 亚洲小番茄 阅读(879) 评论(0) 推荐(0) 编辑
摘要: 做网络爬虫时,一般对代理IP的需求量比较大。因为在爬取网站信息的过程中,很多网站做了反爬虫策略,可能会对每个IP做频次控制。这样我们在爬取网站时就需要很多代理IP。代理IP的获取,可以从以下几个途径得到:从免费的网站上获取,质量很低,能用的IP极少购买收费的代理服务,质量高很多自己搭建代理服务器,稳 阅读全文
posted @ 2020-09-07 16:52 亚洲小番茄 阅读(923) 评论(0) 推荐(0) 编辑
摘要: 代理池是爬虫、采集、爆破、刷单等必不可少的配备。读了一个github的py代理池的源码,简单易用免维护,也无需过多配置,该程序从网站爬取代理列表,存入SQLite数据库。定时执行爬取->存入->检查->爬取的循环以保证采集到代理IP的可用性。开两个线程,一个用做服务器对外提供代理IP,另一个用于维护 阅读全文
posted @ 2020-09-05 18:23 亚洲小番茄 阅读(224) 评论(0) 推荐(0) 编辑
摘要: 本文通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地。下面就看看如何使用python来实现这样一个功能。 # -*- coding: utf-8 -*- import urllib import re import time import os #显示下载进度 def sc 阅读全文
posted @ 2020-09-03 15:31 亚洲小番茄 阅读(886) 评论(0) 推荐(0) 编辑
摘要: 爬虫的小伙伴,肯定经常遇到ip被封的情况,而现在网络上的代理ip免费的已经很难找了,那么现在就用python的requests库从爬取代理ip,创建一个ip代理池,以备使用。 本代码包括ip的爬取,检测是否可用,可用保存,通过函数get_proxies可以获得ip,如:{'HTTPS': '106. 阅读全文
posted @ 2020-09-01 16:17 亚洲小番茄 阅读(393) 评论(0) 推荐(0) 编辑
摘要: 本文介绍两种方式来实现python爬虫获取数据,并将python获取的数据保存到文件中。一、第一种方式:主要通过爬取百度官网页面数据,将数据保存到文件baidu.html中,程序运行完打开文件baidu.html查看效果。具体代码中有详细的代码解释,相信刚入门的你也能看懂~~说明一下我的代码环境是p 阅读全文
posted @ 2020-08-29 17:45 亚洲小番茄 阅读(1052) 评论(0) 推荐(0) 编辑
摘要: 1.今天我们来讲下一个非常有用的东西,代理ip池,结果就是一个任务每隔一定时间去到目标ip代理提供网站去爬取可用数据存到mysql数据库,并且检测数据库已有数据是否可用,不可用就删除。2. 编写 提取代理ip到数据库 的爬虫2.1准备mysql表 CREATE TABLE `t_ips` ( `id 阅读全文
posted @ 2020-08-27 16:58 亚洲小番茄 阅读(363) 评论(0) 推荐(0) 编辑