随笔分类 -  python 爬虫

摘要:Python爬虫详解 "Python 之 Urllib库的基本使用" "Python中requests库使用方法详解" "Beautifulsoup模块基础用法详解" "selenium模块基础用法详解" "re(正则)模块" 阅读全文
posted @ 2019-11-14 22:20 Thousand_Mesh 阅读(290) 评论(0) 推荐(0) 编辑
摘要:正则表达式BREs,EREs,PREs的比较 [TOC] 首先正则表达式分为三类(man grep可以看到,分别是basic RegExs,extended RegExs,perl RegExs) 正则表达式:在计算机科学中,是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。在很多 阅读全文
posted @ 2019-11-14 22:18 Thousand_Mesh 阅读(465) 评论(0) 推荐(0) 编辑
摘要:Python爬虫—requests库get和post方法使用 [TOC] requests库是一个常用于http请求的模块,性质是和urllib,urllib2是一样的,作用就是向指定目标网站的后台服务器发起请求,并接收服务器返回的响应内容。 1. 安装requests库 使用pip install 阅读全文
posted @ 2019-11-14 22:17 Thousand_Mesh 阅读(3821) 评论(0) 推荐(2) 编辑
摘要:selenium模块 官方文档 http://selenium-python.readthedocs.io/ 介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的 阅读全文
posted @ 2019-11-14 22:17 Thousand_Mesh 阅读(709) 评论(0) 推荐(0) 编辑
摘要:Beautifulsoup模块 [TOC] 官方中文文档 "Beautifulsoup官方中文文档" 介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节 阅读全文
posted @ 2019-11-14 22:15 Thousand_Mesh 阅读(1206) 评论(0) 推荐(1) 编辑
摘要:re模块 [TOC] 什么是正则? 正则就是用一些具有特殊含义的符号组合到一起(称为正则表达式)来描述字符或者字符串的方法。或者说:正则就是用来描述一类事物的规则。 (在Python中)它内嵌在Python中,并通过 re 模块实现。正则表达式模式被编译成一系列的字节码,然后由用 C 编写的匹配引擎 阅读全文
posted @ 2019-11-14 22:15 Thousand_Mesh 阅读(242) 评论(0) 推荐(0) 编辑
摘要:python 之 Urllib库的基本使用 [TOC] 官方文档 什么是Urllib Urllib是python内置的HTTP请求库 包括以下模块 urllib.request 请求模块 urllib.error 异常处理模块 urllib.parse url解析模块 urllib.robotpar 阅读全文
posted @ 2019-11-14 22:14 Thousand_Mesh 阅读(397) 评论(0) 推荐(0) 编辑
摘要:python中requests库使用方法详解 [TOC] 官方文档 requests的具体安装过程请看:http://docs.python requests.org/en/latest/user/install.html install requests的官方指南文档:http://docs.py 阅读全文
posted @ 2019-11-14 22:14 Thousand_Mesh 阅读(4820) 评论(0) 推荐(1) 编辑
摘要:GitHub 上有哪些优秀的 Python 爬虫项目? [TOC] 大型爬虫项目: "Photon" 一个高速的爬虫程序。最大的特点是它不是像普通 "爬虫" 那样只爬取结构和静态资源,Photon被偏向设计为信息收集爬虫,它有非常灵活的规则设置和利于阅读的导出结果。 Photon提供的各种选项可以让 阅读全文
posted @ 2019-10-25 11:36 Thousand_Mesh 阅读(3124) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示