随笔分类 - python爬虫
摘要:一、Selector选择器介绍 python从网页中提取数据常用以下两种方法: lxml:基于ElementTree的XML解析库(也可以解析HTML),不是python的标准库 BeautifulSoup:基于HTML代码的解析库, 对不良标记的处理非常合理,速度上有所欠缺 在scrapy中可以使
阅读全文
摘要:scrapy官方文档 http://doc.scrapy.org/en/latest/ 一、scrapy安装 安装lxml:pip3 install lxml 安装wheel:pip3 install wheel 安装Twisted:pip3 install Twisted 安装pyOpenSSL:
阅读全文
摘要:1.安装mongoDB数据库 我是在windows环境中安装的mongoDB,方法见https://www.cnblogs.com/Forever77/p/11193704.html 2.安装pymongo模块 windows环境中,直接在cmd命令窗口中执行pip3 install pymongo
阅读全文
摘要:以如下html段落为例进行介绍 <html> <head> <title>The Dormouse's story</title> </head> <body> <p class="title" name="dromouse"><b>The Dormouse's story</b></p> <p c
阅读全文
摘要:一、BeautifulSoup概述 BeautifulSoup是python的一个库,用于接收一个HTML或XML字符串并对其进行格式化,然后使用提供的方法快速查找指定元素。 使用BeautifulSoup需要先安装,安装了python后直接在cmd窗口通过pip3 install Beautifu
阅读全文
摘要:XPath是一种在XML文档中查找信息的语言,使用路径表达式在XML文档中进行导航。学习XPath需要对XML和HTML有基本的了解。 在XPath中,有七种类型的节点:文档(根)节点、元素、属性、文本、命名空间、处理指令、注释,XML 文档是被作为节点树来对待的,树的根被称为文档节点或者根节点。
阅读全文