2010 年 12月 16 日随笔档案 - finallyly

随笔 - 404 文章 - 0 评论 - 1037 阅读 - 136万

2010年12月16日

摘要：作者:finallyliuyu 出处：博客园最近在做关于文本分类算法的验证。汉语新闻分类的语料库采用的是我自己爬取的新闻。英文分类语料库考虑采用reuters需要处理reuters21578文本分类语料库。下面给出处理reuters2178的代码，主要功能就是从文本中提取新闻标题、内容、类别存储到mssql2000中。把代码拷贝下来，留在这里做份备忘，主要是因为里面涉及了些boost::regex的使用，已经宽窄字符集转换。尤其是boost::regex的使用，有很多注意事项，比如C#中的\s+,boost要用“\\s+”等。比如boost::regex中的dotmatchnewline 模式阅读全文

posted @ 2010-12-16 11:31 finallyly 阅读(1968) 评论(10) 推荐(0) 编辑

公告

昵称： finallyly
园龄： 15年9个月
粉丝： 507
关注： 23

2025年3月

日

一

二

三

四

五

六