随笔分类 -  Python 爬虫

Python爬虫的简单入门和小实例,且所有代码都提供免费下载,适合初学者入门
摘要:Python 实用爬虫 04 使用 BeautifulSoup 去水印下载 CSDN 博客图片 其实没太大用,就是方便一些,因为现在各个平台之间的图片都不能共享,比如说在 CSDN 不能用简书的图片,在博客园不能用 CSDN 的图片。 当前想到的方案就是:先把 CSDN 上的图片都下载下来,再手动更 阅读全文
posted @ 2019-06-16 00:05 xpwi 阅读(978) 评论(3) 推荐(0) 编辑
摘要:爬虫,可用于增加访问量和抓取网站全页内容 爬虫道德规范: 1.不让爬的咱不爬 2.让爬的咱不能一直爬 但是,使用我们有使用代理 ip 的项目 真正使用 使用爬虫提高文章访客说明: 名称:CSDN 增加访客系统 v1.0 作者:xpwi@qq.com 博客园:https://www.cnblogs.c 阅读全文
posted @ 2018-09-08 17:03 xpwi 阅读(1062) 评论(0) 推荐(0) 编辑
摘要:Python爬虫编程常见问题解决方法: 1.通用的解决方案: 【按住Ctrl键不送松】,同时用鼠标点击【方法名】,查看文档 2.TypeError: POST data should be bytes, an iterable of bytes, or a file object. It canno 阅读全文
posted @ 2018-09-07 13:24 xpwi 阅读(3601) 评论(0) 推荐(0) 编辑
摘要:Python爬虫教程 34 分布式爬虫介绍 分布式爬虫在实际应用中还算是多的,本篇简单介绍一下分布式爬虫 什么是分布式爬虫 分布式爬虫就是多台计算机上都安装爬虫程序,重点是联合采集。单机爬虫就是只在一台计算机上的爬虫。 其实搜索引擎都是爬虫,负责从世界各地的网站上爬取内容,当你搜索关键词时就把相关的 阅读全文
posted @ 2018-09-06 21:17 xpwi 阅读(3263) 评论(0) 推荐(0) 编辑
摘要:本篇详细介绍 scrapy shell 的使用,也介绍了使用 xpath 进行精确查找 Python爬虫教程 33 scrapy shell 的使用 scrapy shell 的使用 条件: 我们需要先在环境中,安装 scrapy 包,如果还没有安装,请参照: "Python爬虫教程 30 Scra 阅读全文
posted @ 2018-09-06 21:16 xpwi 阅读(9607) 评论(0) 推荐(1) 编辑
摘要:本篇介绍项目开发的过程中,对 Setting 文件的配置和使用 Python爬虫教程 32 Scrapy 爬虫框架项目 Settings.py 介绍 settings.py 文件的使用 想要详细查看 settings.py文件的更多内容,可查看中文文档: https://scrapy chs.rea 阅读全文
posted @ 2018-09-06 21:15 xpwi 阅读(841) 评论(0) 推荐(0) 编辑
摘要:本篇是介绍在 Anaconda 环境下,创建 Scrapy 爬虫框架项目的步骤,且介绍比较详细 Python爬虫教程 31 创建 Scrapy 爬虫框架项目 首先说一下,本篇是在 Anaconda 环境下,所以如果没有安装 Anaconda 请先到官网下载安装 Anaconda 下载地址:https 阅读全文
posted @ 2018-09-06 21:14 xpwi 阅读(1527) 评论(0) 推荐(0) 编辑
摘要:从本篇开始学习 Scrapy 爬虫框架 Python爬虫教程 30 Scrapy 爬虫框架介绍 框架:框架就是对于相同的相似的部分,代码做到不出错,而我们就可以将注意力放到我们自己的部分了 常见爬虫框架: scrapy pyspider crawley Scrapy 是一个为了爬取网站数据,提取结构 阅读全文
posted @ 2018-09-06 21:13 xpwi 阅读(2521) 评论(0) 推荐(0) 编辑
摘要:本篇是关于验证码识别问题,也是Python爬虫笔记的一个结尾,使用 Tesseract Python爬虫教程 29 验证码识别 Tesseract OCR 常见反爬虫手段: 验证码 1.简单图片,扭曲数字验证码 2.中文顺序点击 3.动态验证码 4.滑动验证:滑动小方块到缺口 5.语音验证 6.极验 阅读全文
posted @ 2018-09-06 21:12 xpwi 阅读(1529) 评论(0) 推荐(0) 编辑
摘要:我觉得本篇是很有意思的,闲着没事来看看! Python爬虫教程 28 Selenium 操纵 Chrome PhantomJS 幽灵浏览器,无界面浏览器,不渲染页面。Selenium + PhantomJS 在之前是很完美的搭配。后来在 2017 年 Google 宣布 Chrome 也宣布支持不渲 阅读全文
posted @ 2018-09-06 21:11 xpwi 阅读(1949) 评论(0) 推荐(0) 编辑
摘要:我们使用Selenium+Chrome时,版本不一样, 会导致 chromedriver 停止运行 chromedriver 所有版本下载链接: http://npm.taobao.org/mirrors/chromedriver/ 请根据下面表格下载支持自己 Chrome 的版本 Selenium 阅读全文
posted @ 2018-09-06 21:06 xpwi 阅读(1181) 评论(0) 推荐(0) 编辑
摘要:Python爬虫教程 26 Selenium + PhantomJS 动态前端页面 : JavaScript: JavaScript一种直译式脚本语言,是一种动态类型、弱类型、基于原型的语言,内置支持类型。它的解释器被称为JavaScript引擎,为浏览器的一部分,广泛用于客户端的脚本语言,最早是在 阅读全文
posted @ 2018-09-06 21:03 xpwi 阅读(1243) 评论(0) 推荐(0) 编辑
摘要:Python爬虫教程 25 数据提取 BeautifulSoup4(三) 本篇介绍 BeautifulSoup 中的 css 选择器 css 选择器 使用 soup.select 返回一个列表 通过标签名称:soup.select("title") 通过类名:soup.select(".centen 阅读全文
posted @ 2018-09-06 21:02 xpwi 阅读(705) 评论(0) 推荐(0) 编辑
摘要:Python爬虫教程 24 数据提取 BeautifulSoup4(二) 本篇介绍 bs 如何遍历一个文档对象 遍历文档对象 contents:tag 的子节点以列表的方式输出 children:子节点以迭代器形式返回 descendants:所有子孙节点 string:用string打印出标签的具 阅读全文
posted @ 2018-09-06 21:01 xpwi 阅读(516) 评论(0) 推荐(0) 编辑
摘要:Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据,查看文档 https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ Python爬虫教程 23 数据提取 BeautifulSoup4(一) Beautiful 阅读全文
posted @ 2018-09-06 20:59 xpwi 阅读(1696) 评论(0) 推荐(1) 编辑
摘要:Python爬虫教程 22 lxml etree和xpath配合使用 lxml:python 的HTML/XML的解析器 官网文档:https://lxml.de/ 使用前,需要安装安 lxml 包 功能: 1.解析HTML:使用 etree.HTML(text) 将字符串格式的 html 片段解析 阅读全文
posted @ 2018-09-06 20:57 xpwi 阅读(815) 评论(0) 推荐(0) 编辑
摘要:本篇简单介绍 xpath 在python爬虫方面的使用,想要具体学习 xpath 可以到 w3school 查看 xpath 文档 xpath文档:http://www.w3school.com.cn/xpath/index.asp Python爬虫教程 21 xpath 什么是 XPath? XP 阅读全文
posted @ 2018-09-06 20:56 xpwi 阅读(709) 评论(0) 推荐(0) 编辑
摘要:本篇简单介绍 xml 在python爬虫方面的使用,想要具体学习 xml 可以到 w3school 查看 xml 文档 xml 文档链接:http://www.w3school.com.cn/xmldom/xmldom_reference.asp Python爬虫教程 20 xml简介 XML(Ex 阅读全文
posted @ 2018-09-06 20:55 xpwi 阅读(432) 评论(0) 推荐(0) 编辑
摘要:本篇主页内容:match的基本使用,search的基本使用,findall,finditer的基本使用,匹配中文,贪婪与非贪婪模式 Python爬虫教程 19 数据提取 正则表达式(re) 正则表达式:一套规则,可以在字符串文本中进行搜查替换等 正则使用步骤: 1.使用 compile 函数将正则表 阅读全文
posted @ 2018-09-06 20:53 xpwi 阅读(884) 评论(0) 推荐(0) 编辑
摘要:本篇针对的数据是已经存在在页面上的数据,不包括动态生成的数据,今天是对HTML中提取对我们有用的数据,去除无用的数据 Python爬虫教程 18 页面解析和数据提取 结构化数据:先有的结构,再谈数据 json数据 1.处理此类数据,通常使用JSON Path 2.转换成python类型的数据,再进行 阅读全文
posted @ 2018-09-06 20:52 xpwi 阅读(851) 评论(0) 推荐(0) 编辑