会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
星云外
博客园
首页
新随笔
联系
订阅
管理
公告
2010年9月11日
zt 爬虫与字符集
摘要: 网页正文抽取中的网页编码字符集自动识别最佳方案http://www.12fanyi.cn/post/25.html 第一篇来自http://www.cnblogs.com/lersh/archive/2008/07/09/1238799.html《比IE准确率更高的自动字符集检测类 UniversalCharDet》,我摘录里面的一段:怎么识别一个网页用的是什么编码呢? 一是网页或服务器直接报...
阅读全文
posted @ 2010-09-11 14:57 星云外
阅读(354)
评论(0)
推荐(0)
编辑