2012 年 10月 7 日随笔档案 - coltfoal

2012年10月7日

摘要：昨天用python写了一个天气预报采集，今天趁着兴头写个新闻采集的。目标是，将腾讯新闻主页上所有新闻爬取下来，获得每一篇新闻的名称、时间、来源以及正文。接下来分解目标，一步一步地做。步骤1：将主页上所有链接爬取出来，写到文件里。根据上一篇文章的方法，可以简单地获取到整个主页的文本内容。我们都知道html链接的标签是“a”，链接的属性是“href”，也就是要获得html中所有tag=a，attrs=href 值。查阅了资料，一开始我打算用HTMLParser，而且也写出来了。但是它有一个问题，就是遇到中文字符的时候无法处理。1 class parser(HTMLPar... 阅读全文

posted @ 2012-10-07 22:14 coltfoal 阅读(6256) 评论(1) 推荐(1) 编辑

[空缺]

想什么呢

公告