摘要: 昨天用python写了一个天气预报采集,今天趁着兴头写个新闻采集的。 目标是,将腾讯新闻主页上所有新闻爬取下来,获得每一篇新闻的名称、时间、来源以及正文。 接下来分解目标,一步一步地做。 步骤1:将主页上所有链接爬取出来,写到文件里。 根据上一篇文章的方法,可以简单地获取到整个主页的文本内容。 我们都知道html链接的标签是“a”,链接的属性是“href”,也就是要获得html中所有tag=a,attrs=href 值。 查阅了资料,一开始我打算用HTMLParser,而且也写出来了。但是它有一个问题,就是遇到中文字符的时候无法处理。1 class parser(HTMLPar... 阅读全文
posted @ 2012-10-07 22:14 coltfoal 阅读(6256) 评论(1) 推荐(1) 编辑