亚洲小番茄

2020年9月14日

摘要： 3种抓取其中数据的方法。首先是正则表达式，然后是流行的BeautifulSoup模块，最后是强大的lxml模块。 1　正则表达式当我们使用正则表达式抓取国家（或地区）面积数据时，首先需要尝试匹配``元素中的内容，如下所示。 >>> import re >>> from chp1.advanced_ 阅读全文

posted @ 2020-09-14 16:23 亚洲小番茄阅读(1471) 评论(0) 推荐(0) 编辑

2020年9月12日

干货分享！网络爬虫，提取网站数据。

摘要： 1　什么是网络爬虫网络爬虫是指从网站提取数据的技术，该技术可以将非结构化数据转换为结构化数据。网络爬虫的用途是从网站提取数据，提取的数据可以存储到本地文件并保存在系统中，也可以将其以表格的形式存储到数据库中。网络爬虫使用HTTP或Web浏览器直接访问万维网（WWW）。网络爬虫或机器人抓取网页的过阅读全文

posted @ 2020-09-12 15:57 亚洲小番茄阅读(1656) 评论(0) 推荐(0) 编辑

2020年9月10日

python爬虫数据采集ip被封一篇解决

摘要：代理服务的介绍：我们在做爬虫的过程中经常最初爬虫都正常运行，正常爬取数据，一切看起来都是美好，然而一杯茶的功夫就出现了错误。如：403 Forbidden错误，“您的IP访问频率太高”错误，或者跳出一个验证码让我们输入，之后解封，但过一会又出现类似情况。出现这个现象的原因是因为网站采取了一些反阅读全文

posted @ 2020-09-10 15:26 亚洲小番茄阅读(1056) 评论(0) 推荐(0) 编辑

2020年9月9日

必不可少的20个Python第三方库

摘要：今天我将介绍20个属于我常用工具的Python库，我相信你看完之后也会觉得离不开它们。他们是： Requests.Kenneth Reitz写的最富盛名的http库。每个Python程序员都应该有它。 Scrapy.如果你从事爬虫相关的工作，那么这个库也是必不可少的。用过它之后你就不会再想用别的同类阅读全文

posted @ 2020-09-09 15:33 亚洲小番茄阅读(896) 评论(0) 推荐(0) 编辑

2020年9月7日

如何使用自建代理ip池尽享数据搭建

摘要：做网络爬虫时，一般对代理IP的需求量比较大。因为在爬取网站信息的过程中，很多网站做了反爬虫策略，可能会对每个IP做频次控制。这样我们在爬取网站时就需要很多代理IP。代理IP的获取，可以从以下几个途径得到：从免费的网站上获取，质量很低，能用的IP极少购买收费的代理服务，质量高很多自己搭建代理服务器，稳阅读全文

posted @ 2020-09-07 16:52 亚洲小番茄阅读(945) 评论(0) 推荐(0) 编辑

2020年9月5日

程序员解决爬虫IP被封的神器

摘要：代理池是爬虫、采集、爆破、刷单等必不可少的配备。读了一个github的py代理池的源码，简单易用免维护，也无需过多配置，该程序从网站爬取代理列表，存入SQLite数据库。定时执行爬取->存入->检查->爬取的循环以保证采集到代理IP的可用性。开两个线程，一个用做服务器对外提供代理IP，另一个用于维护阅读全文

posted @ 2020-09-05 18:23 亚洲小番茄阅读(230) 评论(0) 推荐(0) 编辑

2020年9月3日

怎样使用python爬虫进行网页图片抓取

摘要：本文通过python 来实现这样一个简单的爬虫功能，把我们想要的图片爬取到本地。下面就看看如何使用python来实现这样一个功能。 # -*- coding: utf-8 -*- import urllib import re import time import os #显示下载进度 def sc 阅读全文

posted @ 2020-09-03 15:31 亚洲小番茄阅读(909) 评论(0) 推荐(0) 编辑

2020年9月1日

python爬虫构建代理ip池抓取数据库。

摘要：爬虫的小伙伴,肯定经常遇到ip被封的情况,而现在网络上的代理ip免费的已经很难找了,那么现在就用python的requests库从爬取代理ip，创建一个ip代理池，以备使用。本代码包括ip的爬取，检测是否可用，可用保存，通过函数get_proxies可以获得ip，如：{'HTTPS': '106. 阅读全文

posted @ 2020-09-01 16:17 亚洲小番茄阅读(405) 评论(0) 推荐(0) 编辑

2020年8月29日

入门数据采集，python爬虫常见的数据采集与保存、

摘要：本文介绍两种方式来实现python爬虫获取数据，并将python获取的数据保存到文件中。一、第一种方式：主要通过爬取百度官网页面数据，将数据保存到文件baidu.html中，程序运行完打开文件baidu.html查看效果。具体代码中有详细的代码解释，相信刚入门的你也能看懂~~说明一下我的代码环境是p 阅读全文

posted @ 2020-08-29 17:45 亚洲小番茄阅读(1139) 评论(0) 推荐(0) 编辑

2020年8月27日

爬虫代理池，百万数据轻松抓取。

摘要： 1.今天我们来讲下一个非常有用的东西，代理ip池，结果就是一个任务每隔一定时间去到目标ip代理提供网站去爬取可用数据存到mysql数据库，并且检测数据库已有数据是否可用，不可用就删除。2. 编写提取代理ip到数据库的爬虫2.1准备mysql表 CREATE TABLE `t_ips` ( `id 阅读全文

posted @ 2020-08-27 16:58 亚洲小番茄阅读(367) 评论(0) 推荐(0) 编辑

公告