随笔分类 - python爬虫
从0到1实战
摘要:一、案例分析 这里还需要借助浏览器的开发者工具来查看ajax请求, 下面以 Chrome 浏览器为例来介绍。 首先,用 Chrome 浏览器打开微博的链接 https://m.weibo.cn/u/2830678474,随后在页面中点击鼠标右键,从弹出的快捷菜单中选择,随后在页面中点击鼠标右键,从弹
阅读全文
摘要:一、 准备工作 pip3 install pymysql 二、 连接数据库 利用 PyMySQL 先连接 MySQL,然后创建一个新的数据库,名字叫作 spiders,代码如下: import pymysql db = pymysql.connect(host='localhost',user='r
阅读全文
摘要:一、TXT文件存储 将数据保存到 TX 文本的操作非常简单, 而且 TXT 文本几乎兼容任何平台,但是这有个缺点,那就是不利于检索 所以如果对检索和数据结构要求不高,追求方便第一的话,可以采用 TXT 文本存储 本节中,我们就来看下如何利用 Python 保存 TXT 文本文件 代码示例: impo
阅读全文
摘要:一、 PyQuery介绍与安装 1、PyQuery简介 PyQuery简介 PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择。 官网地址:http://pyquery.readthedocs.io/en/la
阅读全文
摘要:BeautifulSoup基本用法 BeautifulSoup是Python的一个HTML或XML的解析库,可以用它来方便地从网页提取数据(以下为崔庆才的爬虫书的学习笔记) 一. 安装方式 #安装beautifulsoup4 pip install beautifulsoup4 #安装lxml pi
阅读全文
摘要:一、 安装 pip方式安装 pip install lxml 二、 Xpath术语 2.1 节点 在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。请看下面这个 XML 文档: <?
阅读全文
摘要:一、正则表达式模式 模式字符串使用特殊的语法来表示一个正则表达式: 下表列出了正则表达式模式语法中的特殊元素。如果你使用模式的同时提供了可选的标志参数,某些模式元素的含义会改变。 模式描述 ^ 匹配字符串的开头 $ 匹配字符串的末尾。 . 匹配任意字符,除了换行符,当re.DOTALL标记被指定时,
阅读全文