小学森也要学编程

2018年1月17日

摘要： 1.XPath语法 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素，并且 XQuery 和 XPointer 都构建于 XPath 表达之上。节点关系（1）父（Parent）每个元素阅读全文

posted @ 2018-01-17 12:50 小学森也要学编程阅读(432) 评论(0) 推荐(0) 编辑

python爬虫（7）--Beautiful Soup的用法

摘要： 1.Beautiful Soup简介简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所阅读全文

posted @ 2018-01-17 11:55 小学森也要学编程阅读(425) 评论(0) 推荐(0) 编辑

2017年12月14日

python爬虫（6）--Requests库的用法

摘要： 1.安装利用pip来安装reques库，进入pip的下载位置，打开cmd，默认地址为可以看到文件中有pip.exe，直接在上面输入cmd回车，进入命令行界面，输入下载指令即可下载 2.基本请求 requests库提供了http所有的基本请求方式。 1）基本GET请求一个简单的例子这里requ 阅读全文

posted @ 2017-12-14 20:24 小学森也要学编程阅读(365) 评论(0) 推荐(0) 编辑

2017年12月13日

python爬虫--常见错误

摘要： 1）socket.error: [Errno 10054] ython socket.error: [Errno 10054] 远程主机强迫关闭了一个现有的连接。因为对一个网站大量的使用urlopen操作，所以会被那个网站认定为攻击行为。有时就不再允许下载。导致urlopen()后，request. 阅读全文

posted @ 2017-12-13 17:35 小学森也要学编程阅读(643) 评论(0) 推荐(0) 编辑

python爬虫实战（3）--图片下载器

摘要：本篇目标 1.输入关键字能够根据关键字爬取百度图片 2.能够将图片保存到本地文件夹 1.URL的格式进入百度图片搜索apple，这时显示的是瀑布流版本，我们选择传统翻页版本进行爬取。可以看到网址为：点击下一页发现网址变为pn=20，这里仅pn发生了改变 2.抓取图片打开开发者选项，点击图片，出阅读全文

posted @ 2017-12-13 17:22 小学森也要学编程阅读(789) 评论(0) 推荐(0) 编辑

2017年12月11日

python爬虫实战（2）--爬取百度贴吧

摘要：本篇目标 1.对百度贴吧的任意帖子进行抓取 2.指定是否只抓取楼主发帖内容 3.将抓取到的内容分析并保存到文件 1.URL格式的确定先观察百度贴吧url格式，以中南财经政法大学迎新帖为例，URL我们划分基础部分是 http://tieba.baidu.com/p/5174106966，参数部分是阅读全文

posted @ 2017-12-11 20:48 小学森也要学编程阅读(376) 评论(0) 推荐(0) 编辑

2017年12月6日

python爬虫实战（1）--爬取糗事百科

摘要：这里利用正则表达式进行匹配，糗事百科是不需要登录的，所以也没必要用到Cookie，另外糗事百科有的段子是附图的，我们把图抓下来图片不便于显示，那么我们就尝试过滤掉有图的段子。本篇目标 1.抓取糗事百科热门段子 2.过滤带有图片的段子 3.实现每按一次回车显示一个段子的发布页数，发布人，段子内容，点阅读全文

posted @ 2017-12-06 20:48 小学森也要学编程阅读(314) 评论(0) 推荐(0) 编辑

2017年12月5日

python爬虫（5）--正则表达式

摘要： 1.了解正则表达式正则表达式的大致匹配过程是：1.依次拿出表达式和文本中的字符比较，2.如果每一个字符都能匹配，则匹配成功；一旦有匹配不成功的字符则匹配失败。3.如果表达式中有量词或边界，这个过程会稍微有一些不同。 2.正则表达式的语法规则 3.正则表达式相关注解（1）数量词的贪婪模式与非贪婪模阅读全文

posted @ 2017-12-05 19:35 小学森也要学编程阅读(701) 评论(0) 推荐(0) 编辑

2017年11月29日

python爬虫（4）--Cookie的使用

摘要： Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie，然后再抓取其他页面就达到目的了。 1.Ope 阅读全文

posted @ 2017-11-29 19:25 小学森也要学编程阅读(369) 评论(0) 推荐(0) 编辑

2017年11月28日

python爬虫（3）--异常处理

摘要： 1.URLError 首先解释下URLError可能产生的原因：网络无连接，即本机无法上网连接不到特定的服务器服务器不存在在代码中，我们需要用try-except语句来包围并捕获相应的异常。我们利用了 urlopen方法访问了一个不存在的网址，运行结果如下：它说明了错误代号是11004，阅读全文

posted @ 2017-11-28 20:29 小学森也要学编程阅读(569) 评论(0) 推荐(0) 编辑