随笔分类 -  Spider

放养的小爬虫
摘要:我认为`爬虫技术基本原理就三点~下载数据~匹配数据~保存数据~`,本来一件很简单的事儿,却有这么多的爬虫爱好者去研究~去探索~并且还诞生了伟大的框架`scrapy`、`pyspider`,但是个人认为其是一种`工具`。这么多的非python开发者对爬虫技术(scrapy、pyspider)感兴趣,我想是因为爬虫技术属于`逆向工程`吧~人们一直以来对正向的思维,正向的发展,正向的软件开发等等一切事物运筹帷幄,却很少有人对一件事物,一件物品,一个软件,甚至一个网站开发出来后反向对到其制作过程,制作工序,制作原料作其推导~古文说`以古为镜,可以知兴替`,我想,对一件已经制作出来的物品,推导其制作过程,比制作这件物品更来得有兴趣吧~ 阅读全文
posted @ 2016-03-24 00:50 Erma_Jack 阅读(3726) 评论(3) 推荐(8) 编辑
摘要:Python很强大,50行不到的爬虫代码实现京东定向爬虫,虽然其他语言也可以实现,但是个人还是喜欢Python做做小爬虫,笔者iOS开发,曾用OC写过爬虫,苹果高度封装OC语言和强大的第三方库也不能敌当过Python的便捷!!!好吧,说说爬虫实现的基本思路吧,还有AJAX。。。 #AJAX,异步加载技术!!! 之前在网上看过很多朋友有一种疑问,为什么在看京东网页的源代码里面看不到价格或则折扣一类的数据,而在网页上正常显示却能看到?。。。之前我也没有想到是AJAX,因为我写写爬虫只是业余爱好吧~~,后来有一次用chrome抓包的时候发现网页加载完成但是其还在刷新数据,突然恍然大悟!!!AJAX,之前看过一篇帖子的很多朋友都在问京东网页的源代码里面看不到价格的数据,如果您是查找这个问题的读者,恭喜您,找对地方了!!! 阅读全文
posted @ 2016-03-16 02:53 Erma_Jack 阅读(21800) 评论(81) 推荐(41) 编辑
摘要:Python写爬虫的感觉那叫一个爽!100行代码不到,爬取整站,貌似这样下去拉钩还不加强服务器么?下面看看半智能的效果,程序员嘛。。。不做外壳了。。。我只是一只放养的小爬虫,拉钩看到就说对不起啰!!。其中也没有什么难点的技术,不过pandas很值得学习,给个学习链接[http://pandas.pydata.org](http://pandas.pydata.org),挺不错的。。下面贴一下代码吧。。。github上面也有。 阅读全文
posted @ 2016-03-13 19:59 Erma_Jack 阅读(5258) 评论(33) 推荐(13) 编辑

点击右上角即可分享
微信分享提示