2018年1月17日
摘要: 1.XPath语法 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。 节点关系 (1)父(Parent) 每个元素 阅读全文
posted @ 2018-01-17 12:50 小学森也要学编程 阅读(432) 评论(0) 推荐(0) 编辑
摘要: 1.Beautiful Soup简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所 阅读全文
posted @ 2018-01-17 11:55 小学森也要学编程 阅读(425) 评论(0) 推荐(0) 编辑
  2017年12月14日
摘要: 1.安装 利用pip来安装reques库,进入pip的下载位置,打开cmd,默认地址为 可以看到文件中有pip.exe,直接在上面输入cmd回车,进入命令行界面,输入下载指令即可下载 2.基本请求 requests库提供了http所有的基本请求方式。 1)基本GET请求 一个简单的例子 这里requ 阅读全文
posted @ 2017-12-14 20:24 小学森也要学编程 阅读(365) 评论(0) 推荐(0) 编辑
  2017年12月13日
摘要: 1)socket.error: [Errno 10054] ython socket.error: [Errno 10054] 远程主机强迫关闭了一个现有的连接。因为对一个网站大量的使用urlopen操作,所以会被那个网站认定为攻击行为。有时就不再允许下载。导致urlopen()后,request. 阅读全文
posted @ 2017-12-13 17:35 小学森也要学编程 阅读(643) 评论(0) 推荐(0) 编辑
摘要: 本篇目标 1.输入关键字能够根据关键字爬取百度图片 2.能够将图片保存到本地文件夹 1.URL的格式 进入百度图片搜索apple,这时显示的是瀑布流版本,我们选择传统翻页版本进行爬取。可以看到网址为: 点击下一页发现网址变为pn=20,这里仅pn发生了改变 2.抓取图片 打开开发者选项,点击图片,出 阅读全文
posted @ 2017-12-13 17:22 小学森也要学编程 阅读(789) 评论(0) 推荐(0) 编辑
  2017年12月11日
摘要: 本篇目标 1.对百度贴吧的任意帖子进行抓取 2.指定是否只抓取楼主发帖内容 3.将抓取到的内容分析并保存到文件 1.URL格式的确定 先观察百度贴吧url格式,以中南财经政法大学迎新帖为例,URL我们划分基础部分是 http://tieba.baidu.com/p/5174106966,参数部分是  阅读全文
posted @ 2017-12-11 20:48 小学森也要学编程 阅读(376) 评论(0) 推荐(0) 编辑
  2017年12月6日
摘要: 这里利用正则表达式进行匹配,糗事百科是不需要登录的,所以也没必要用到Cookie,另外糗事百科有的段子是附图的,我们把图抓下来图片不便于显示,那么我们就尝试过滤掉有图的段子。 本篇目标 1.抓取糗事百科热门段子 2.过滤带有图片的段子 3.实现每按一次回车显示一个段子的发布页数,发布人,段子内容,点 阅读全文
posted @ 2017-12-06 20:48 小学森也要学编程 阅读(314) 评论(0) 推荐(0) 编辑
  2017年12月5日
摘要: 1.了解正则表达式 正则表达式的大致匹配过程是:1.依次拿出表达式和文本中的字符比较,2.如果每一个字符都能匹配,则匹配成功;一旦有匹配不成功的字符则匹配失败。3.如果表达式中有量词或边界,这个过程会稍微有一些不同。 2.正则表达式的语法规则 3.正则表达式相关注解 (1)数量词的贪婪模式与非贪婪模 阅读全文
posted @ 2017-12-05 19:35 小学森也要学编程 阅读(701) 评论(0) 推荐(0) 编辑
  2017年11月29日
摘要: Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密) 比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie,然后再抓取其他页面就达到目的了。 1.Ope 阅读全文
posted @ 2017-11-29 19:25 小学森也要学编程 阅读(369) 评论(0) 推荐(0) 编辑
  2017年11月28日
摘要: 1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网 连接不到特定的服务器 服务器不存在 在代码中,我们需要用try-except语句来包围并捕获相应的异常。 我们利用了 urlopen方法访问了一个不存在的网址,运行结果如下: 它说明了错误代号是11004, 阅读全文
posted @ 2017-11-28 20:29 小学森也要学编程 阅读(569) 评论(0) 推荐(0) 编辑