摘要: 在百度搜索引擎中以"Python"为关键词 代码框架: 输出: http://www.baidu.com/s?wd=Python461379 在360搜索引擎中以"Python"为关键词: 代码框架: 输出: https://www.so.com/s?q=Python256963 阅读全文
posted @ 2019-05-07 21:16 Shiko 阅读(706) 评论(0) 推荐(0) 编辑
摘要: 这个网页具备检测爬虫和浏览器访问的功能。 因此为了成功爬取该网页,我们需要伪装requests的headers(把爬虫伪装成一个浏览器) 代码如下: 输出: 阅读全文
posted @ 2019-05-07 20:48 Shiko 阅读(873) 评论(0) 推荐(0) 编辑
摘要: 京东某商品的页面爬取: 全代码如下(使用通用框架进行爬取): 输出: 阅读全文
posted @ 2019-05-07 19:59 Shiko 阅读(1855) 评论(0) 推荐(0) 编辑
摘要: robots.txt robots协议(全名为“网络爬虫排除标准”)(Robots Exclusion Protocol)网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。 对于robots协议如何遵守,当前较为普遍的观点是: 对于小程序这样爬取量少的小型爬虫,可以无视robo 阅读全文
posted @ 2019-05-07 19:40 Shiko 阅读(491) 评论(0) 推荐(0) 编辑
摘要: 列表的用法(上) 一.定义列表: 直接看例子 习题3-3 自己的列表: 想想你喜欢的通勤方式,如骑摩托车或开汽车,并创建一个包含多种通勤方式的列表。根据该列表打印一系列有关这些通勤方式的宣言,如“I wouldliketo own a Honda motorcycle”。(摘自python从入门到实 阅读全文
posted @ 2019-05-07 15:52 Shiko 阅读(295) 评论(0) 推荐(0) 编辑