Léon

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

2013年5月10日

摘要: S1.目标抓取一个网页并分析,从而:得到半结构化数据,如抓取新浪微博一个页面中的内容。得到其他网页的指针,如抓取新浪微博中下一个页面。下载文件,如这次要下载PDF的任务。多线程抓取与分布式抓取。自动密钥破解。S2.方法概述有多少种方法可以用的呢?1.自己写urllib2+urlparse+re最原始的办法,其中urllib2是python的web库、urlparse能处理url、re是正则库,这种方法写起来比较繁琐,但也比较“实在”,具体可以参考[4].urllib2+beautifulsoup这里的得力干将是beautifulsoup[5],beautifulsoup可以非常有效的解析HTM 阅读全文
posted @ 2013-05-10 14:23 Léon 阅读(798) 评论(0) 推荐(0) 编辑

摘要: 使用基本的 Python 模块,可以编写脚本来与 Web 站点交互,但是如果没有必要的话,那么您就不希望这样做。Python 2.x 中的模块urllib和urllib2,以及 Python 3.0 中的统一的urllib.*子包,可以在 URL 的末尾获取资源。然而,当您希望与 Web 页面中找到的内容进行某种比较复杂的交互时,您需要使用mechanize库(参见参考资料获得下载链接)。在自动化 Web scrap 或用户与 Web 站点的交互模拟中,最大的困难之一就是服务器使用 cookies 跟踪会话进度。显然,cookies 是 HTTP 头部的一部分,在urllib打开资源时会自然显 阅读全文
posted @ 2013-05-10 14:18 Léon 阅读(480) 评论(0) 推荐(0) 编辑

摘要: WebKit是开源的Web浏览器引擎,苹果的Safari、谷歌的Chrome浏览器都是基于这个框架来开发的。WebKit 还支持移动设备和手机,包括iPhone和Android手机都是使用WebKit做为浏览器的核心。了解更多>>>由于是直接使用浏览器引擎,所以能够访问和修改浏览器的各项底层属性,能够与其进行深度的交互。例如,可以进行代理设置、HTTP头读取和修改、Cookie读取和设置、缓存控制、URL过滤。另外,Webkit方案还能够跨平台使用。Qt库是一个跨平台C++图形用户界面应用程序开发框架,QtWebKit是Webkit在Qt库中的封装。PyQt4是Qt库的Pyt 阅读全文
posted @ 2013-05-10 11:49 Léon 阅读(4240) 评论(2) 推荐(0) 编辑