2015 年 2月 15 日随笔档案 - Chris-Hu

2015年2月15日

摘要：网页内容的解析可以说是爬虫最主要和最核心的工作，从一堆看似杂乱的代码中获取我们需要的信息，这就是爬虫的本质。python对于网页解析提供了很多的方式，传统的即通过urllib2包获取网页代码，再通过re正则表达式模块自己写规则来获取信息。第三方的包也有，类似pyquery、lxml、Beautifu... 阅读全文

posted @ 2015-02-15 16:36 Chris-Hu 阅读(1045) 评论(0) 推荐(1) 编辑

公告