摘要: # Django框架 - 环境 - python3.6 - django1.8 - 参考资料 - [django中文文档](http://yiyibooks.cn) - django架站的16堂课 # 环境搭建 - anaconda+Pycharm - anaconda命令 ... 阅读全文
posted @ 2018-11-30 18:00 美滋滋的胖虎 阅读(267) 评论(0) 推荐(0) 编辑
摘要: # 动态HTML - JavaScript - jQuery - Ajax - DHTML - Python采集动态数据 - 从JavaScript代码入手采集 - Python第三方库运行JavaScript,直接采集你在浏览器看到的页面# Selenium + PhantomJS - Selenium:web自动化测试工具(操纵浏... 阅读全文
posted @ 2018-11-30 16:00 美滋滋的胖虎 阅读(203) 评论(0) 推荐(0) 编辑
摘要: # 页面解析、数据提取 - 结构化数据:先有结构,再谈数据 - JSON文件 - JSON Path - 转换成Python类型进行操作(json类) - XML文件 - 转换成Python类型(xmltodict) - xpath - css选择器 ... 阅读全文
posted @ 2018-11-29 16:45 美滋滋的胖虎 阅读(980) 评论(0) 推荐(0) 编辑
摘要: # 爬虫框架 - scrapy - pyspider - crawley# Scrapy框架 - 安装: - pip install scrapy - conda install scrapy - 概述 - 包含各个部件 - ScrapyEngine引擎:神经中枢、大脑、核心 - S... 阅读全文
posted @ 2018-11-28 17:07 美滋滋的胖虎 阅读(465) 评论(0) 推荐(0) 编辑
摘要: # 验证码问题 - 验证码:放置机器人或者爬虫 - 分类: - 简单图片 - 极验,官网www.geetest.com - 12306 - 电话 - google验证 - 验证码破解: - 通用方法: - 下载网页和验证码 - 手动输入验证号码 ... 阅读全文
posted @ 2018-11-27 18:03 美滋滋的胖虎 阅读(208) 评论(0) 推荐(0) 编辑
摘要: # Requests-献给人类 - HTTP for Humans,更加简洁友好 - 继承了urllib的所有特征 - 底层使用的是urllib3 - 开源,有中文文档 - 安装:conda install requests - get请求 - requests.get() - requests.request("get",url) ... 阅读全文
posted @ 2018-11-27 17:17 美滋滋的胖虎 阅读(181) 评论(0) 推荐(0) 编辑
摘要: - SSL - SSL证书就是指遵守SSL安全套阶层协议的服务器数字证书(SercureSocketLayer) - 美国网景公司开发 - CA(CertifacateAuthprity)是数字证书认证中心,是发放、管理、废除数字证书的授信人的第三方机构 - 遇到不信任的SSL证书,需要单独处理,案例v17 - js加密 - 有的反爬虫策... 阅读全文
posted @ 2018-11-26 17:45 美滋滋的胖虎 阅读(299) 评论(0) 推荐(0) 编辑
摘要: # 爬虫 - 两大特征 - 按作者要求下载数据或者内容 - 能自动在网络上流窜 - 三大步骤 - 下载网页 - 提取正确的信息 - 根据一定规则自动跳转到另外的网页上执行 - 爬虫分类 - 通用爬虫 - 专用爬虫(聚焦爬虫) - Python网络包简介 - Pyt... 阅读全文
posted @ 2018-11-22 17:21 美滋滋的胖虎 阅读(238) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2018-11-15 16:57 美滋滋的胖虎 阅读(1249) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2018-11-15 11:49 美滋滋的胖虎 阅读(132) 评论(0) 推荐(0) 编辑