摘要: 强大又灵活的网页解析库,如果觉得正则写起来太麻烦,BeautifulSoup语法太难记,而你又熟悉jQuery的语法,那么用PyQuery就是最佳选择 一. 初始化 强大又灵活的网页解析库,如果觉得正则写起来太麻烦,BeautifulSoup语法太难记,而你又熟悉jQuery的语法,那么用PyQue 阅读全文
posted @ 2018-06-29 15:34 坚强的小蚂蚁 阅读(258) 评论(0) 推荐(0) 编辑
摘要: 灵活方便的网页解析库,处理高效,支持多种解析器,利用它不用编写正则表达式即可方便的实现网页信息的提取 一. BeautifulSoup的几种解析库 一. BeautifulSoup的几种解析库 解析器 使用方法 优势 劣势 Python标准库 BeautifulSoup(markup, "html. 阅读全文
posted @ 2018-06-29 15:28 坚强的小蚂蚁 阅读(245) 评论(0) 推荐(0) 编辑
摘要: 一. 常见匹配模式 模式 描述 \w 匹配字母数字及下划线 \W 匹配非字母数字下划线 \s 匹配任意空白字符,等价于 [\t\n\r\f]. \S 匹配任意非空字符 \d 匹配任意数字,等价于 [0-9] \D 匹配任意非数字 \A 匹配字符串开始 \Z 匹配字符串结束,如果是存在换行,只匹配到换 阅读全文
posted @ 2018-06-29 15:26 坚强的小蚂蚁 阅读(285) 评论(0) 推荐(0) 编辑
摘要: 一个简单易用的http库,多用于第一步,爬取网站源码 简单例子 import requests response = requests.get('https://www.baidu.com/') print(type(response)) print(response.status_code) pr 阅读全文
posted @ 2018-06-29 15:24 坚强的小蚂蚁 阅读(256) 评论(0) 推荐(0) 编辑
摘要: 了解即可,不好用 一. 概述 python内置的http请求库,包括4个模块,分别如下 urllib.request 请求模块 urllib.error 异常处理模块 urllib.parse url解析模块, 工具模块 urllib.robotparser robots.txt解析模块 urlop 阅读全文
posted @ 2018-06-29 15:22 坚强的小蚂蚁 阅读(279) 评论(0) 推荐(0) 编辑
摘要: 安装各种可能需要的库 pip3 install requests selenium lxml beautifulsoup4 pyquery pymysql pymango redis flask django jupyter 一。爬虫基本原理讲解 1. 抓网页 import requests res 阅读全文
posted @ 2018-06-29 15:00 坚强的小蚂蚁 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 一. 使用原生sql,了解即可 使用原生sql的目的:解决一些复杂的sql不能用ORM方式写出的问题 有三种方式如下 1. extra: 结果集修改器,一种提供额外查询参数的机制 2. raw:执行原始sql并返回模型实例 3. 直接执行自定义的SQL 前两种方式要依赖于model,第三种不依赖mo 阅读全文
posted @ 2018-06-29 14:58 坚强的小蚂蚁 阅读(171) 评论(0) 推荐(0) 编辑
摘要: 有如下模型为例 class Publisher(models.Model): name = models.CharField(max_length=30) address = models.CharField(max_length=50) website = models.URLField() cl 阅读全文
posted @ 2018-06-29 14:55 坚强的小蚂蚁 阅读(1780) 评论(0) 推荐(0) 编辑