High一下! --from coolshell
摘要: 以往,写爬虫的思路一般是用curl,urllib(python)或,HttpComponents(java)等发起request,然后读取response,用xpath,或者类js操作dom的方式获取需要的数据。 然而当遇到那种将数据藏在js里面的情况,比如sina weibo中,好友信息都是放在script节点里,由js在client端动态append到页面上,如果要获取这种数据,那只有使用正则表达式了。 直到我发现了个叫Selenium的自动化测试框架。可以通过程序启动,控制浏览器的行为。让我省去了写正则的时间。但缺点是框架非常重,效率很低。(毕竟他原本是用来做自动化测试的。。) ... 阅读全文
posted @ 2013-08-18 23:05 庄周梦蝶,黄粱一枕 阅读(1291) 评论(0) 推荐(0) 编辑