Python 爬虫 - 随笔分类 - xpwi

Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片

摘要：Python 实用爬虫 04 使用 BeautifulSoup 去水印下载 CSDN 博客图片其实没太大用，就是方便一些，因为现在各个平台之间的图片都不能共享，比如说在 CSDN 不能用简书的图片，在博客园不能用 CSDN 的图片。当前想到的方案就是：先把 CSDN 上的图片都下载下来，再手动更阅读全文

posted @ 2019-06-16 00:05 xpwi 阅读(1021) 评论(3) 推荐(0)

爬虫，可用于增加访问量和抓取网站全页内容

摘要：爬虫，可用于增加访问量和抓取网站全页内容爬虫道德规范： 1.不让爬的咱不爬 2.让爬的咱不能一直爬但是，使用我们有使用代理 ip 的项目真正使用使用爬虫提高文章访客说明：名称：CSDN 增加访客系统 v1.0 作者：xpwi@qq.com 博客园：https://www.cnblogs.c 阅读全文

posted @ 2018-09-08 17:03 xpwi 阅读(1083) 评论(0) 推荐(0)

Python爬虫编程常见问题解决方法

摘要：Python爬虫编程常见问题解决方法： 1.通用的解决方案：【按住Ctrl键不送松】，同时用鼠标点击【方法名】，查看文档 2.TypeError: POST data should be bytes, an iterable of bytes, or a file object. It canno 阅读全文

posted @ 2018-09-07 13:24 xpwi 阅读(3743) 评论(0) 推荐(0)

Python爬虫教程-34-分布式爬虫介绍

摘要：Python爬虫教程 34 分布式爬虫介绍分布式爬虫在实际应用中还算是多的，本篇简单介绍一下分布式爬虫什么是分布式爬虫分布式爬虫就是多台计算机上都安装爬虫程序，重点是联合采集。单机爬虫就是只在一台计算机上的爬虫。其实搜索引擎都是爬虫，负责从世界各地的网站上爬取内容，当你搜索关键词时就把相关的阅读全文

posted @ 2018-09-06 21:17 xpwi 阅读(3421) 评论(0) 推荐(0)

Python爬虫教程-33-scrapy shell 的使用

摘要：本篇详细介绍 scrapy shell 的使用，也介绍了使用 xpath 进行精确查找 Python爬虫教程 33 scrapy shell 的使用 scrapy shell 的使用条件：我们需要先在环境中，安装 scrapy 包，如果还没有安装，请参照： "Python爬虫教程 30 Scra 阅读全文

posted @ 2018-09-06 21:16 xpwi 阅读(9893) 评论(0) 推荐(1)

Python爬虫教程-32-Scrapy 爬虫框架项目 Settings.py 介绍

摘要：本篇介绍项目开发的过程中，对 Setting 文件的配置和使用 Python爬虫教程 32 Scrapy 爬虫框架项目 Settings.py 介绍 settings.py 文件的使用想要详细查看 settings.py文件的更多内容，可查看中文文档： https://scrapy chs.rea 阅读全文

posted @ 2018-09-06 21:15 xpwi 阅读(904) 评论(0) 推荐(0)

Python爬虫教程-31-创建 Scrapy 爬虫框架项目

摘要：本篇是介绍在 Anaconda 环境下，创建 Scrapy 爬虫框架项目的步骤，且介绍比较详细 Python爬虫教程 31 创建 Scrapy 爬虫框架项目首先说一下，本篇是在 Anaconda 环境下，所以如果没有安装 Anaconda 请先到官网下载安装 Anaconda 下载地址：https 阅读全文

posted @ 2018-09-06 21:14 xpwi 阅读(1583) 评论(0) 推荐(0)

Python爬虫教程-30-Scrapy 爬虫框架介绍

摘要：从本篇开始学习 Scrapy 爬虫框架 Python爬虫教程 30 Scrapy 爬虫框架介绍框架：框架就是对于相同的相似的部分，代码做到不出错，而我们就可以将注意力放到我们自己的部分了常见爬虫框架： scrapy pyspider crawley Scrapy 是一个为了爬取网站数据，提取结构阅读全文

posted @ 2018-09-06 21:13 xpwi 阅读(2580) 评论(0) 推荐(0)

Python爬虫教程-29-验证码识别-Tesseract-OCR

摘要：本篇是关于验证码识别问题，也是Python爬虫笔记的一个结尾，使用 Tesseract Python爬虫教程 29 验证码识别 Tesseract OCR 常见反爬虫手段：验证码 1.简单图片，扭曲数字验证码 2.中文顺序点击 3.动态验证码 4.滑动验证：滑动小方块到缺口 5.语音验证 6.极验阅读全文

posted @ 2018-09-06 21:12 xpwi 阅读(1605) 评论(0) 推荐(0)

Python爬虫教程-28-Selenium 操纵 Chrome

摘要：我觉得本篇是很有意思的，闲着没事来看看！ Python爬虫教程 28 Selenium 操纵 Chrome PhantomJS 幽灵浏览器，无界面浏览器，不渲染页面。Selenium + PhantomJS 在之前是很完美的搭配。后来在 2017 年 Google 宣布 Chrome 也宣布支持不渲阅读全文

posted @ 2018-09-06 21:11 xpwi 阅读(2010) 评论(0) 推荐(0)

Python爬虫教程-27-Selenium Chrome版本与chromedriver兼容版本对照表

摘要：我们使用Selenium+Chrome时，版本不一样, 会导致 chromedriver 停止运行 chromedriver 所有版本下载链接： http://npm.taobao.org/mirrors/chromedriver/ 请根据下面表格下载支持自己 Chrome 的版本 Selenium 阅读全文

posted @ 2018-09-06 21:06 xpwi 阅读(1235) 评论(0) 推荐(0)

Python爬虫教程-26-Selenium + PhantomJS

摘要：Python爬虫教程 26 Selenium + PhantomJS 动态前端页面： JavaScript： JavaScript一种直译式脚本语言，是一种动态类型、弱类型、基于原型的语言，内置支持类型。它的解释器被称为JavaScript引擎，为浏览器的一部分，广泛用于客户端的脚本语言，最早是在阅读全文

posted @ 2018-09-06 21:03 xpwi 阅读(1279) 评论(0) 推荐(0)

Python爬虫教程-25-数据提取-BeautifulSoup4（三）

摘要：Python爬虫教程 25 数据提取 BeautifulSoup4（三）本篇介绍 BeautifulSoup 中的 css 选择器 css 选择器使用 soup.select 返回一个列表通过标签名称：soup.select("title") 通过类名：soup.select(".centen 阅读全文

posted @ 2018-09-06 21:02 xpwi 阅读(735) 评论(0) 推荐(0)

Python爬虫教程-24-数据提取-BeautifulSoup4（二）

摘要：Python爬虫教程 24 数据提取 BeautifulSoup4（二）本篇介绍 bs 如何遍历一个文档对象遍历文档对象 contents：tag 的子节点以列表的方式输出 children：子节点以迭代器形式返回 descendants：所有子孙节点 string：用string打印出标签的具阅读全文

posted @ 2018-09-06 21:01 xpwi 阅读(554) 评论(0) 推荐(0)

Python爬虫教程-23-数据提取-BeautifulSoup4（一）

摘要：Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据，查看文档 https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ Python爬虫教程 23 数据提取 BeautifulSoup4（一） Beautiful 阅读全文

posted @ 2018-09-06 20:59 xpwi 阅读(1741) 评论(0) 推荐(1)

Python爬虫教程-22-lxml-etree和xpath配合使用

摘要：Python爬虫教程 22 lxml etree和xpath配合使用 lxml：python 的HTML/XML的解析器官网文档：https://lxml.de/ 使用前，需要安装安 lxml 包功能： 1.解析HTML：使用 etree.HTML(text) 将字符串格式的 html 片段解析阅读全文

posted @ 2018-09-06 20:57 xpwi 阅读(871) 评论(0) 推荐(0)

Python爬虫教程-21-xpath 简介

摘要：本篇简单介绍 xpath 在python爬虫方面的使用，想要具体学习 xpath 可以到 w3school 查看 xpath 文档 xpath文档：http://www.w3school.com.cn/xpath/index.asp Python爬虫教程 21 xpath 什么是 XPath? XP 阅读全文

posted @ 2018-09-06 20:56 xpwi 阅读(774) 评论(0) 推荐(0)

Python爬虫教程-20-xml 简介

摘要：本篇简单介绍 xml 在python爬虫方面的使用，想要具体学习 xml 可以到 w3school 查看 xml 文档 xml 文档链接：http://www.w3school.com.cn/xmldom/xmldom_reference.asp Python爬虫教程 20 xml简介 XML(Ex 阅读全文

posted @ 2018-09-06 20:55 xpwi 阅读(469) 评论(0) 推荐(0)

Python爬虫教程-19-数据提取-正则表达式(re)

摘要：本篇主页内容：match的基本使用，search的基本使用，findall,finditer的基本使用，匹配中文，贪婪与非贪婪模式 Python爬虫教程 19 数据提取正则表达式(re) 正则表达式：一套规则，可以在字符串文本中进行搜查替换等正则使用步骤： 1.使用 compile 函数将正则表阅读全文

posted @ 2018-09-06 20:53 xpwi 阅读(953) 评论(0) 推荐(0)

Python爬虫教程-18-页面解析和数据提取

摘要：本篇针对的数据是已经存在在页面上的数据，不包括动态生成的数据，今天是对HTML中提取对我们有用的数据，去除无用的数据 Python爬虫教程 18 页面解析和数据提取结构化数据：先有的结构，再谈数据 json数据 1.处理此类数据，通常使用JSON Path 2.转换成python类型的数据，再进行阅读全文

posted @ 2018-09-06 20:52 xpwi 阅读(887) 评论(0) 推荐(0)

xpwi

Stay hungry，stay foolish！

随笔分类 - Python 爬虫

公告