Python 解析 html 文件

HTMLParser

HTMLParser是Python自带的模块,能够很容易实现HTML文件的处理
使用HTMLParser解析HTML文件

BeautifulSoup

看了一下介绍,觉得功能很强劲,还没又时间去研究。

BeautifulSoup简单文档有空我会去完善的。

从HTML文件中抽取正文的简单方案

从HTML文件中抽取正文的简单方案

从HTML中得到准确的文章标题 (原创)

现在标题 <title> 部分大多含有网站名称, 和子栏目名称。
如果希望得到干净的文章标题可以使用如下方法:

  • 得到<title> </title>的内容

  • 将title的与正文就最大交集,得到的就是干净的文章标题

得到了干净的标题和正文,余下的事情就好做咯^_^

posted @ 2010-01-09 18:39  真功夫  阅读(989)  评论(0编辑  收藏  举报