摘要:
前段时间,领导说列一下某页面上的所有国家信息,话说这个国家下拉框里的国家有两三百个,是第三方模块导入的,手动从页面拷贝,不切实际,于是想着用爬虫去获取这个国家信息,并保存到文件里。 下面是具体的代码,写的也是比较简单, 第一种:利用Selenium操作页面,获取下拉国家列表的信息,并保存到文件里 第 阅读全文
摘要:
Requests 是第三方模块,如果要使用的话需要导入。Requests也可以说是urllib模块的升级版,使用上更方便。 这是使用urllib的例子。 下面是Requests 模块的使用。 支持的请求: requests.get(‘https://github.com/timeline.json’ 阅读全文
摘要:
安装 官方文档: https://pythonhosted.org/pyquery/ 初始化方式(四种) 1. 直接字符串 pq 参数可以直接传入 HTML 代码,doc 现在就相当于 jQuery 里面的 $ 符号了。 2. lxml.etree 可以首先用 lxml 的 etree 处理一下代码 阅读全文
摘要:
PyQuery 可让你用 jQuery 的语法来对 xml 进行操作,这和 jQuery 十分类似。如果利用 lxml,pyquery 对 xml 和 html 的处理将更快。 如果对 jQuery 熟悉,那么 PyQuery来解析文档就是不二之选! 下面的例子是爬取 'http://so.feng 阅读全文