摘要: 有时候你要把抓回来的数据进行提取,过大篇幅的html标签,你若使用正则表达式进行匹配的话,显然是低效的,这时使用python的HTMLParser模块会显得非常方便。据说还有个比较好用的解析器叫:Beautiful Soup,这个以后有机会再说吧,现在本渣连实习都找不到,再搞这个东西估计没法生活了。。。。。。事先说明:我们要解析的html和xhtml的语法是规范的那一种,如果遇到不规范的就gg了,得自己手写正则提取。还有,对于那些转义字符没转义就先不考虑了。。。。。。。关于HTMLParser与SGMLParser:网上看很多大牛说HTMLParser对中文字符的提取很不好,推荐使用SGML. 阅读全文
posted @ 2014-04-02 01:37 中大黑熊 阅读(11131) 评论(2) 推荐(1) 编辑