2013 年 8月 18 日随笔档案 - 庄周梦蝶，黄粱一枕

2013年8月18日

摘要：以往，写爬虫的思路一般是用curl，urllib(python)或，HttpComponents(java)等发起request，然后读取response，用xpath，或者类js操作dom的方式获取需要的数据。然而当遇到那种将数据藏在js里面的情况，比如sina weibo中，好友信息都是放在script节点里，由js在client端动态append到页面上，如果要获取这种数据，那只有使用正则表达式了。直到我发现了个叫Selenium的自动化测试框架。可以通过程序启动，控制浏览器的行为。让我省去了写正则的时间。但缺点是框架非常重，效率很低。（毕竟他原本是用来做自动化测试的。。）　... 阅读全文

posted @ 2013-08-18 23:05 庄周梦蝶，黄粱一枕阅读(1291) 评论(0) 推荐(0) 编辑

庄周梦蝶，黄粱一枕

一步一个脚印

公告