Python selenium+phantomjs的js动态爬取

摘要: Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE、Mozilla Firefox、Chrome等。Phantom JS是一个服务器端的 JavaScript API 的 WebKit。其支持各种Web标准: D 阅读全文
posted @ 2017-08-18 10:54 vhills 阅读(257) 评论(0) 推荐(0) 编辑

python——代理ip获取

摘要: python爬虫要经历爬虫、爬虫被限制、爬虫反限制的过程。当然后续还要网页爬虫限制优化,爬虫再反限制的一系列道高一尺魔高一丈的过程。 爬虫的初级阶段,添加headers和ip代理可以解决很多问题。 贴代码:说下思路 1、到http://www.xicidaili.com/nn/抓取相应的代理ip地址 阅读全文
posted @ 2017-08-16 11:13 vhills 阅读(6624) 评论(0) 推荐(0) 编辑

python的__name__ == \'__main__\' 意义

摘要: 转自http://www.jb51.net/article/51892.htm 很多新手刚开始学习python的时候经常会看到python 中__name__ = \'__main__\' 这样的代码,可能很多新手一开始学习的时候都比较疑惑,python 中__name__ == '__main__ 阅读全文
posted @ 2017-08-15 13:24 vhills 阅读(301) 评论(0) 推荐(0) 编辑

python—— 写入错误UnicodeEncodeError的解决办法

摘要: 在写python爬虫过程中,有时候吧结果写入到txt文件,但是会遇到UnicodeEncodeError。 错误原因—— 把文件内容,写入到文件中时,出错了。 而出错的原因其实是,python系统,在使用默认的编码类型,此处的ascii,去将对应的内容,写入到文件中。 但是由于其中一些内容,asci 阅读全文
posted @ 2017-08-09 14:22 vhills 阅读(11312) 评论(0) 推荐(0) 编辑

python爬虫——简易天气爬取

摘要: 通过爬虫,抓取http://www.weather.com.cn的天气信息 功能——输入城市代码,获取当日天气,简单的beautifulsoup和requests实现。(城市代码可百度查询,不全部展示) 代码如下: 效果图: 阅读全文
posted @ 2017-08-08 17:52 vhills 阅读(506) 评论(0) 推荐(0) 编辑

python爬虫——京东评论、jieba分词、wordcloud词云统计

摘要: 接上一章,动态页面抓取——抓取京东评论区内容。 url=‘https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv399&productId=4560435&score=0&sortTy 阅读全文
posted @ 2017-08-07 00:35 vhills 阅读(843) 评论(0) 推荐(0) 编辑

python爬虫—— 抓取今日头条的街拍的妹子图

摘要: AJAX 是一种用于创建快速动态网页的技术。 通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。 近期在学习获取js动态加载网页的爬虫,决定通过实例加深理解。 1、首先是url的研究(谷歌浏览器的审查功能) htt 阅读全文
posted @ 2017-08-06 19:50 vhills 阅读(4381) 评论(1) 推荐(1) 编辑

Python爬虫:获取JS动态内容

摘要: 经过一段时间的python学习,能写出一些爬虫了。但是,遇到js动态加载的网页就犯了难。于是乎谷歌、百度,发现个好介绍http://www.jianshu.com/p/4fe8bb1ea984 主要就是分析网页的加载过程,从网页响应中找到JS脚本返回的JSON数据。(上边的网址介绍很详细,下边就直接 阅读全文
posted @ 2017-08-04 23:42 vhills 阅读(4458) 评论(0) 推荐(0) 编辑

python——成语接龙小游戏

摘要: 小试牛刀的简易成语接龙。 思路—— 1、网上下载成语字典的txt版本 2、通过python进行处理得到格式化的成语,并整理成字典(python字典查找速度快) 3、python程序,查找 用户输入的最后一个字和字典里首字一致的,放入列表,并通过random进行随机选择,然后输出 字典整理部分:转换成 阅读全文
posted @ 2017-06-13 13:56 vhills 阅读(3564) 评论(0) 推荐(0) 编辑