摘要: 前段时间,领导说列一下某页面上的所有国家信息,话说这个国家下拉框里的国家有两三百个,是第三方模块导入的,手动从页面拷贝,不切实际,于是想着用爬虫去获取这个国家信息,并保存到文件里。 下面是具体的代码,写的也是比较简单, 第一种:利用Selenium操作页面,获取下拉国家列表的信息,并保存到文件里 第 阅读全文
posted @ 2018-02-15 17:48 nancy05 阅读(4723) 评论(1) 推荐(0) 编辑
摘要: Requests 是第三方模块,如果要使用的话需要导入。Requests也可以说是urllib模块的升级版,使用上更方便。 这是使用urllib的例子。 下面是Requests 模块的使用。 支持的请求: requests.get(‘https://github.com/timeline.json’ 阅读全文
posted @ 2018-02-15 16:31 nancy05 阅读(1926) 评论(0) 推荐(0) 编辑
摘要: 安装 官方文档: https://pythonhosted.org/pyquery/ 初始化方式(四种) 1. 直接字符串 pq 参数可以直接传入 HTML 代码,doc 现在就相当于 jQuery 里面的 $ 符号了。 2. lxml.etree 可以首先用 lxml 的 etree 处理一下代码 阅读全文
posted @ 2018-02-15 15:44 nancy05 阅读(1938) 评论(0) 推荐(0) 编辑
摘要: PyQuery 可让你用 jQuery 的语法来对 xml 进行操作,这和 jQuery 十分类似。如果利用 lxml,pyquery 对 xml 和 html 的处理将更快。 如果对 jQuery 熟悉,那么 PyQuery来解析文档就是不二之选! 下面的例子是爬取 'http://so.feng 阅读全文
posted @ 2018-02-15 15:11 nancy05 阅读(958) 评论(0) 推荐(0) 编辑