摘要: 原文链接:http://blog.csdn.net/sptoor/article/details/4930069 思路:汉字匹配,把字符都转换成宽字符,然后再匹配。 需要用到以下和宽字符有关的类: 1、wstring: 作为STL中和string相对应的类,专门用于处理宽字符串。方法和string都一样,区别是value_type是wchar_t。wstring类的对象要赋值或连接的常量字符串必须以L开头标示为宽字符。 2、wregex: 和regex相对应,专门处理宽字符的正则表达式类。同样可以使用regex_match()和regex_replace()等函数。regex_m... 阅读全文
posted @ 2013-12-03 22:26 lmei 阅读(895) 评论(0) 推荐(0) 编辑
摘要: 文本分类问题就是将文档归入预先定义的几个类别中的一个或几个,而文本的自动分类则是使用计算机程序来实现这样的分类。第一,用于分类所需要的类别体系是预先确定的第二,一篇文档并没有严格规定只能被分配给一个类别。类别分配的主观性强,同一篇文章可能被分到几个类别中。 文本分类问题,其方法可以归结为根据待分类数据的某些特征来进行匹配,当然完全的匹配是不太可能的,因此必须(根据某种评价标准)选择最优的匹配结果,从而完成分类。 因此,核心的问题便转化为用哪些特征表示一个文本才能保证有效和快速的分类(注意这两方面的需求往往是互相矛盾的)。因此自有文本分类系统的那天起,就一直是对特征的不同选择主导着方法派... 阅读全文
posted @ 2013-12-03 16:38 lmei 阅读(298) 评论(0) 推荐(0) 编辑