2018 年 6月 29 日随笔档案 - 坚强的小蚂蚁

2018年6月29日

摘要：强大又灵活的网页解析库，如果觉得正则写起来太麻烦，BeautifulSoup语法太难记，而你又熟悉jQuery的语法，那么用PyQuery就是最佳选择一. 初始化强大又灵活的网页解析库，如果觉得正则写起来太麻烦，BeautifulSoup语法太难记，而你又熟悉jQuery的语法，那么用PyQue 阅读全文

posted @ 2018-06-29 15:34 坚强的小蚂蚁阅读(258) 评论(0) 推荐(0) 编辑

爬虫5：beautifulsoup

摘要：灵活方便的网页解析库，处理高效，支持多种解析器，利用它不用编写正则表达式即可方便的实现网页信息的提取一. BeautifulSoup的几种解析库一. BeautifulSoup的几种解析库解析器使用方法优势劣势 Python标准库 BeautifulSoup(markup, "html. 阅读全文

posted @ 2018-06-29 15:28 坚强的小蚂蚁阅读(245) 评论(0) 推荐(0) 编辑

爬虫4：re库

摘要：一. 常见匹配模式模式描述 \w 匹配字母数字及下划线 \W 匹配非字母数字下划线 \s 匹配任意空白字符，等价于 [\t\n\r\f]. \S 匹配任意非空字符 \d 匹配任意数字，等价于 [0-9] \D 匹配任意非数字 \A 匹配字符串开始 \Z 匹配字符串结束，如果是存在换行，只匹配到换阅读全文

posted @ 2018-06-29 15:26 坚强的小蚂蚁阅读(285) 评论(0) 推荐(0) 编辑

爬虫3：requests库

摘要：一个简单易用的http库，多用于第一步，爬取网站源码简单例子 import requests response = requests.get('https://www.baidu.com/') print(type(response)) print(response.status_code) pr 阅读全文

posted @ 2018-06-29 15:24 坚强的小蚂蚁阅读(256) 评论(0) 推荐(0) 编辑

爬虫2：urllib

摘要：了解即可，不好用一. 概述 python内置的http请求库，包括4个模块，分别如下 urllib.request 请求模块 urllib.error 异常处理模块 urllib.parse url解析模块, 工具模块 urllib.robotparser robots.txt解析模块 urlop 阅读全文

posted @ 2018-06-29 15:22 坚强的小蚂蚁阅读(279) 评论(0) 推荐(0) 编辑

爬虫1：概述

摘要：安装各种可能需要的库 pip3 install requests selenium lxml beautifulsoup4 pyquery pymysql pymango redis flask django jupyter 一。爬虫基本原理讲解 1. 抓网页 import requests res 阅读全文

posted @ 2018-06-29 15:00 坚强的小蚂蚁阅读(182) 评论(0) 推荐(0) 编辑

django基础2

摘要：一. 使用原生sql，了解即可使用原生sql的目的：解决一些复杂的sql不能用ORM方式写出的问题有三种方式如下 1. extra: 结果集修改器，一种提供额外查询参数的机制 2. raw：执行原始sql并返回模型实例 3. 直接执行自定义的SQL 前两种方式要依赖于model，第三种不依赖mo 阅读全文

posted @ 2018-06-29 14:58 坚强的小蚂蚁阅读(171) 评论(0) 推荐(0) 编辑

多表查询, 聚集查询和分组查询

摘要：有如下模型为例 class Publisher(models.Model): name = models.CharField(max_length=30) address = models.CharField(max_length=50) website = models.URLField() cl 阅读全文

posted @ 2018-06-29 14:55 坚强的小蚂蚁阅读(1780) 评论(0) 推荐(0) 编辑

坚强的小蚂蚁

每天都要有收获

公告