摘要:
(1)语料库格式:为了防止我们作弊,老师对汉字进行了编码,让我们对“加密后”的文本进行分词两个竖线之间的部分对应于一个词。首先介绍 正向最大匹配方法第一步:数据预处理与字典形成:首先语料库转化成一个set格式,set 包含 语料库中出现的全部词形成字典Code highlighting produced by Actipro CodeHighlighter (freewar... 阅读全文
摘要:
想用C++实现一个数学味道很浓的算法,半监督多项式贝叶斯分类算法。觉得自己目前的能力还没有达到这个水平,还是先上Python吧。学C++,STL,可以找些简单的ACM做练笔。 C++处理字符串实在是太麻烦了,有个大牛同学写了个字符转换的类,看完后我吐血了。明天上课让他给讲讲吧。C++还是要学的,但是不能一口气吃成胖子,慢慢来。。。 阅读全文