摘要: 知识目录 静态网页抓取 Spider_基础总结1_Request(get/post__url传参_headers_timeout)+Reponse Spider_基础总结2_Requests异常 Spider_基础总结3_BeautifulSoup对象+find()+find_all() Spide 阅读全文
posted @ 2020-06-29 17:09 collin_pxy 阅读(95) 评论(0) 推荐(0) 编辑
摘要: # 知识点参见:https://blog.csdn.net/muzico425/article/details/102763176 # 示例:爬取示例网站的首页的评论: # 解析得到的字符串r.text(即 json字符串)可以使用json库来完成解析: import json import req 阅读全文
posted @ 2020-06-29 16:52 collin_pxy 阅读(150) 评论(0) 推荐(0) 编辑
摘要: # session 与 cookie # 可能大家对session已经比较熟悉了,也大概了解了session的机制和原理,但是我们在做爬虫时如何会运用到session呢,就是接下来要讲到的会话保持。 # 首先说一下,为什么要进行会话保持的操作? # requests库的session会话对象可以跨请 阅读全文
posted @ 2020-06-29 14:16 collin_pxy 阅读(186) 评论(0) 推荐(0) 编辑
摘要: import requests from bs4 import BeautifulSoup def gettop250(): headers={ 'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (K 阅读全文
posted @ 2020-06-29 13:59 collin_pxy 阅读(165) 评论(0) 推荐(0) 编辑
摘要: 静态网页 抓取实例: import requests from bs4 import BeautifulSoup def gettop250(): headers={ 'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKi 阅读全文
posted @ 2020-06-29 11:54 collin_pxy 阅读(94) 评论(0) 推荐(0) 编辑
摘要: # 静态网页在浏览器中展示的内容都在HTML的源码中,但主流网页使用 Javascript时,很多内容不出现在HTML的源代码中,此时仍然使用 # requests+beautifulsoup是不能够成功的,如: # 动态网页的爬取,使用 requests+beautifulsoup是不会成功的: 阅读全文
posted @ 2020-06-29 11:34 collin_pxy 阅读(295) 评论(0) 推荐(0) 编辑
摘要: # 第四章内容--处理不同的网站布局: # 我们想在功能类似的网站上抓取类似内容时,往往这些网站的内容可能布局不一样(相同内容的标签可能不同),由于通常我们爬取的网站数量有限, # 我们没有必要去开发比较一套统一的复杂的的算法或机器学习来识别页面上的哪些文字看起来像标题或段落,只需要手动的去检查网页 阅读全文
posted @ 2020-06-26 18:06 collin_pxy 阅读(283) 评论(0) 推荐(0) 编辑
摘要: # 知识点补充: # 1) None: a = None if a: print("非None") else: print("None") if a is not None: print("非None") else: print("None") # None # None a = '' if a: 阅读全文
posted @ 2020-06-25 22:32 collin_pxy 阅读(80) 评论(0) 推荐(0) 编辑
摘要: # 获取百度网站首页上的所有a标签里的 href属性值: # import requests # from bs4 import BeautifulSoup # # html = requests.get('http://en.wikipedia.org/wiki/Kevin_Bacon') # h 阅读全文
posted @ 2020-06-25 17:50 collin_pxy 阅读(722) 评论(0) 推荐(0) 编辑
摘要: # beautifulsoup的 find()及find_all()方法,也会经常和正则表达式以及 Lambda表达式结合在一起使用: # 1-bs.find_all()与正则表达式的应用: # 语法如示例: # 查找符合条件的所有图片: import requests from bs4 impor 阅读全文
posted @ 2020-06-23 16:20 collin_pxy 阅读(875) 评论(0) 推荐(0) 编辑