2014 年 4月 2 日随笔档案 - 中大黑熊

2014年4月2日

摘要：有时候你要把抓回来的数据进行提取，过大篇幅的html标签，你若使用正则表达式进行匹配的话，显然是低效的，这时使用python的HTMLParser模块会显得非常方便。据说还有个比较好用的解析器叫：Beautiful Soup，这个以后有机会再说吧，现在本渣连实习都找不到，再搞这个东西估计没法生活了。。。。。。事先说明：我们要解析的html和xhtml的语法是规范的那一种，如果遇到不规范的就gg了，得自己手写正则提取。还有，对于那些转义字符没转义就先不考虑了。。。。。。。关于HTMLParser与SGMLParser：网上看很多大牛说HTMLParser对中文字符的提取很不好，推荐使用SGML. 阅读全文

posted @ 2014-04-02 01:37 中大黑熊阅读(11131) 评论(2) 推荐(1) 编辑

中大黑熊

公告