随笔分类 -  python爬虫

摘要:一、Selector选择器介绍 python从网页中提取数据常用以下两种方法: lxml:基于ElementTree的XML解析库(也可以解析HTML),不是python的标准库 BeautifulSoup:基于HTML代码的解析库, 对不良标记的处理非常合理,速度上有所欠缺 在scrapy中可以使 阅读全文
posted @ 2019-09-02 17:10 Forever77 阅读(597) 评论(0) 推荐(0) 编辑
摘要:scrapy官方文档 http://doc.scrapy.org/en/latest/ 一、scrapy安装 安装lxml:pip3 install lxml 安装wheel:pip3 install wheel 安装Twisted:pip3 install Twisted 安装pyOpenSSL: 阅读全文
posted @ 2019-09-01 12:42 Forever77 阅读(643) 评论(0) 推荐(0) 编辑
摘要:test3 阅读全文
posted @ 2019-08-31 23:42 Forever77 阅读(283) 评论(0) 推荐(0) 编辑
摘要:1.安装mongoDB数据库 我是在windows环境中安装的mongoDB,方法见https://www.cnblogs.com/Forever77/p/11193704.html 2.安装pymongo模块 windows环境中,直接在cmd命令窗口中执行pip3 install pymongo 阅读全文
posted @ 2019-08-31 12:08 Forever77 阅读(444) 评论(0) 推荐(0) 编辑
摘要:以如下html段落为例进行介绍 <html> <head> <title>The Dormouse's story</title> </head> <body> <p class="title" name="dromouse"><b>The Dormouse's story</b></p> <p c 阅读全文
posted @ 2019-08-30 12:48 Forever77 阅读(497) 评论(0) 推荐(0) 编辑
摘要:一、BeautifulSoup概述 BeautifulSoup是python的一个库,用于接收一个HTML或XML字符串并对其进行格式化,然后使用提供的方法快速查找指定元素。 使用BeautifulSoup需要先安装,安装了python后直接在cmd窗口通过pip3 install Beautifu 阅读全文
posted @ 2019-08-29 08:55 Forever77 阅读(2138) 评论(0) 推荐(0) 编辑
摘要:XPath是一种在XML文档中查找信息的语言,使用路径表达式在XML文档中进行导航。学习XPath需要对XML和HTML有基本的了解。 在XPath中,有七种类型的节点:文档(根)节点、元素、属性、文本、命名空间、处理指令、注释,XML 文档是被作为节点树来对待的,树的根被称为文档节点或者根节点。 阅读全文
posted @ 2019-08-28 11:49 Forever77 阅读(933) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示