2014 年 12月 6 日随笔档案 - Xs酱~

2014年12月6日

摘要：首先，是关键词的选取：好吧这个我这模型实在是太简单了，但还是讲一讲比较好呢。。。我们现在手头有的是一堆百度百科词条w的DF(w, c)值，c是整个百科词条。。。原因是。。。方便嘛~（而且人家现成的只有介个了啦~）我们发现有830W+的词条数目，都存下来显然是不理智、不科学、不魔法的。所以选取一部分作... 阅读全文

posted @ 2014-12-06 20:18 Xs酱~ 阅读(1858) 评论(3) 推荐(0) 编辑

c++实现之 -- 汉语词语的简单处理

摘要：好了，我们现在已经会怎样读入了，然后就是研究一下如何存储等一些细节上的的问题了。首先，比较函数是不能传入char*的地址的，但是可以接受一个string类。然而，如果是两个比较长的string类，要进行比较的话，时间复杂度会上升至O(min（length）)，非常不合算。于是采用双哈希的办法，用h1... 阅读全文

posted @ 2014-12-06 10:41 Xs酱~ 阅读(419) 评论(1) 推荐(0) 编辑

c++读入之 -- 汉字读入遇到的问题

摘要：好吧，课题和汉语处理有关，于是就要求用c++来读入汉字进行处理。首先使用wchar_t字符即宽字符，然后这样定义： 1 #include 2 #include 3 4 using namespace std; 5 6 int main() { 7 wchar_t* ch; 8 ... 阅读全文

posted @ 2014-12-06 09:33 Xs酱~ 阅读(1273) 评论(0) 推荐(0) 编辑

公告