2013年5月28日
摘要: 需求:从格式化数据中抽取html网页,并抽取网页中的全部汉字内容。需要的开源库 inconv boost数据格式如下:两个^\r\n锁定头部,之后是html网页。 其中第一个头部Store-Size部分保存网页的字节数。/*===============================================================* Copyright (C) 2013 All rights reserved.* * 文件名称:ProcessWeiboCorpora.cpp* 创 建 者:刘禹 finallyly * 创建日期:2013年04月24日* ... 阅读全文
posted @ 2013-05-28 09:44 finallyly 阅读(489) 评论(0) 推荐(0) 编辑