word2vec相关资源
word2vec官网:https://code.google.com/p/word2vec/
利用中文数据跑Google开源项目word2vec:http://www.cnblogs.com/hebin/p/3507609.html
word2vec使用指导:http://blog.csdn.net/zhoubl668/article/details/24314769
文本深度表示模型Word2Vec:http://liweithu.me/word2vec/
杨阳 word2vec使用指导:http://ir.dlut.edu.cn/NewsShow.aspx?ID=253
word2vec傻瓜剖析:http://xiaoquanzi.net/?p=156
相关代码文件夹说明:
Word2vecJava->java封装的google word2vec
OnlyExtractWord->java封装的利用ansj分词,仅仅获取词
ExtractWordAndProper->java封装的利用ansj分词,获取词和词的属性
removeDupW->去掉重复词
TestPro->java版本测试程序,加载word2vec模块,利用保留词性并过滤掉重复词文本文件(需要注意一个词有多个词性的情况),获取推荐的关联词,并根据过滤掉不相关词性的推荐词。具体用法参考‘Word2vec先推荐再过滤词性ReleaseFiles’文件夹中的readme文件。
Manvn工程编译及执行命令:
qy@IAT-QYVPN:~/Documents/ansj-SplitWord/WordExtractor-0.9.1$
mvn compile
mvn assembly:assembly
qy@IAT-QYVPN:~/Documents/ansj-SplitWord/WordExtractor-0.9.1/target$
java -Xms800m -jar WordExtractor-0.9.1-jar-with-dependencies.jar input.txt