摘要: 出于某些目的,需要在网上爬一些数据。考虑到Python有各种各样的库,以前想试试Pycharm这个IDE,就决定用它了。首先翻完《深入Python3》这本书,了解了它的语法之类的。下面就开始干活了:Http协议的实现。那本书里有介绍一个叫httplib2的库,看起来挺好。就用这个库把网页内容抓下来先。Html解析。之前有用过一些解析xml的库,但是想着html代码可能不会太严禁,就找到了一个传说中对html容错度很高的库:BeautifulSoup。Python3得用这个库的第四版,导入时也是要导「bs4」库。解析挺简单,我用的基本还是xml那一套。数据保存。呃,没啥说的,就是用内建方法ope 阅读全文
posted @ 2013-07-31 15:18 h46incon 阅读(1378) 评论(0) 推荐(0) 编辑