2014年12月6日
摘要: 首先,是关键词的选取:好吧这个我这模型实在是太简单了,但还是讲一讲比较好呢。。。我们现在手头有的是一堆百度百科词条w的DF(w, c)值,c是整个百科词条。。。原因是。。。方便嘛~(而且人家现成的只有介个了啦~)我们发现有830W+的词条数目,都存下来显然是不理智、不科学、不魔法的。所以选取一部分作... 阅读全文
posted @ 2014-12-06 20:18 Xs酱~ 阅读(1858) 评论(3) 推荐(0) 编辑
摘要: 好了,我们现在已经会怎样读入了,然后就是研究一下如何存储等一些细节上的的问题了。首先,比较函数是不能传入char*的地址的,但是可以接受一个string类。然而,如果是两个比较长的string类,要进行比较的话,时间复杂度会上升至O(min(length)),非常不合算。于是采用双哈希的办法,用h1... 阅读全文
posted @ 2014-12-06 10:41 Xs酱~ 阅读(419) 评论(1) 推荐(0) 编辑
摘要: 好吧,课题和汉语处理有关,于是就要求用c++来读入汉字进行处理。首先使用wchar_t字符即宽字符,然后这样定义: 1 #include 2 #include 3 4 using namespace std; 5 6 int main() { 7 wchar_t* ch; 8 ... 阅读全文
posted @ 2014-12-06 09:33 Xs酱~ 阅读(1273) 评论(0) 推荐(0) 编辑