摘要: 博客搬家到自己的网站了www.54kaikai.com欢迎访问。 阅读全文
posted @ 2014-10-01 14:26 叶落花开 阅读(318) 评论(0) 推荐(0) 编辑
摘要: 在之前的博客中已经详细介绍了如何用Gibbs做LDA抽样。(http://www.cnblogs.com/nlp-yekai/p/3711384.html)这里,我们讨论一下实验结果:结果文件包括:model-final.twordsmodel-final.othersmodel-final.phi... 阅读全文
posted @ 2014-07-21 16:32 叶落花开 阅读(6403) 评论(1) 推荐(0) 编辑
摘要: 转载请注明出处:电子科技大学EClab——落叶花开http://www.cnblogs.com/nlp-yekai/p/3848528.htmlSVD,即奇异值分解,在自然语言处理中,用来做潜在语义分析即LSI,或者LSA。最早见文章An introduction to latent semanti... 阅读全文
posted @ 2014-07-19 13:58 叶落花开 阅读(8976) 评论(5) 推荐(0) 编辑
摘要: 转载请注明:电子科技大学EClab——落叶花开http://www.cnblogs.com/nlp-yekai/p/3816532.html困惑度一般在自然语言处理中用来衡量训练出的语言模型的好坏。在用LDA做主题和词聚类时,原作者D.Blei就是采用了困惑度来确定主题数量。文章中的公式为:perp... 阅读全文
posted @ 2014-07-02 11:13 叶落花开 阅读(28067) 评论(56) 推荐(7) 编辑
摘要: 博主是自然语言处理方向的,不是推荐系统领域的,这个程序完全是为了应付大数据分析与计算的课程作业所写的一个小程序,先上程序,一共55行。不在意细节的话,55行的程序已经表现出了协同过滤的特性了。就是对每一个用户找4个最接近的用户,然后进行推荐,在选择推荐的时候是直接做的在4个用户中选择该用户item没... 阅读全文
posted @ 2014-06-05 16:19 叶落花开 阅读(2389) 评论(2) 推荐(0) 编辑
摘要: 这篇博客根据中文自然语言预处理的步骤分成几个板块。以做LDA实验为例,在处理数据之前,会写一个类似于实验报告的东西,用来指导做实验,OK,举例:一,实验数据预处理(python,结巴分词)1.对于爬取的评论做分词和词性标注处理(mac-result.txt)2.对于结果只用公版的停用词表去停用词,不... 阅读全文
posted @ 2014-05-30 12:32 叶落花开 阅读(11163) 评论(1) 推荐(0) 编辑
摘要: 学python的时候犯的一个错误,放在这吧。就是在循环某个列表的时候不要去操作它,这是容易忽略的一个地方。所以如果要操作某个列表本身,那么先把该列表copy一份,然后再读取的时候读copy的那份。操作原来的列表。正确的如下:import rea="hen/zg /zg qd/a /a ,/x /x ... 阅读全文
posted @ 2014-05-29 22:16 叶落花开 阅读(1609) 评论(0) 推荐(0) 编辑
摘要: 电子科技大学电子商务实验室Kai Yip,欢迎同行指正,也欢迎互相指导,学习。广告打完,进入正题。关于程序运行结果的分析请参照我的另一篇博客:http://www.cnblogs.com/nlp-yekai/p/3858705.htmlGibbslda有很多版本,我所用的版本为C++版(下载地址ht... 阅读全文
posted @ 2014-05-10 12:52 叶落花开 阅读(4414) 评论(3) 推荐(0) 编辑
摘要: 在自然语言处理中,很常见的是要对文本数据进行分词处理。博主是代码小白,目前只是用python作为数据预处理的工具,而按照结巴中文分词的导语:做最好的python中文分词组件“jieba”。因而博主也就在本人的机子上安装了 ubuntu+python2.7+jieba组成的分词组合。关于安装的博客已经... 阅读全文
posted @ 2014-05-06 13:56 叶落花开 阅读(3873) 评论(0) 推荐(0) 编辑