摘要: Word2Vec 词向量的稠密表达形式(无标签语料库训练) Word2vec中要到两个重要的模型,CBOW连续词袋模型和Skip-gram模型。两个模型都包含三层:输入层,投影层,输出层。 1.Skip-Gram神经网络模型(跳过一些词) skip-gram模型的输入是一个单词wI,它的输出是wI的 阅读全文
posted @ 2018-09-06 21:42 JetHu 阅读(2201) 评论(0) 推荐(0) 编辑
摘要: 参考论文: GloVe: Global Vectors forWord Representation 参考博客:https://blog.csdn.net/coderTC/article/details/73864097 理解GloVe模型: glove 模型类似于word2vec模型,都是一种词的 阅读全文
posted @ 2018-09-06 21:41 JetHu 阅读(261) 评论(0) 推荐(0) 编辑
摘要: LSA的工作原理: How Latent Semantic Analysis Works LSA被广泛用于文献检索,文本分类,垃圾邮件过滤,语言识别,模式检索以及文章评估自动化等场景。 LSA其中一个目的是解决如通过搜索词/关键词(search words)定位出相关文章。如何通过对比单词来定位文章 阅读全文
posted @ 2018-09-03 17:46 JetHu 阅读(2119) 评论(0) 推荐(0) 编辑
摘要: 目前最快速Kmeans算法,并由java实现!面对很大的K值表现依然很好。 代码地址: https://github.com/Jethu1/fastKmeans #1.这是一个由java实现的的,多线程Kmeans聚类算法; #2.在聚类的选种阶段分别实现了Kmeans++算法和NIPS 2016的 阅读全文
posted @ 2018-07-26 20:23 JetHu 阅读(777) 评论(0) 推荐(0) 编辑
摘要: 这两周需要写一个页面来请求另一个服务中的接口,服务器采用了超轻量级的undertow,模板引擎采用的是Thymeleaf,在寻找页面资源位置这个地方难住了我。下面分享一下,这方面的代码。 SpringWebConfig方面: 阅读全文
posted @ 2018-03-23 21:11 JetHu 阅读(1586) 评论(0) 推荐(0) 编辑
摘要: 之前基于Lucene分词组件探索了按时间位置进行中文分词的算法,中文分词方面采用了最大逆向匹配算法,由于时间信息保存在一个List中,当每个词被切割出来时,其时间信息将会同时按序提取。将分词结果写入倒排索引的词表,时间信息写入到倒排表中的offset属性中。停词表和词汇表都保存在HashSet中。 阅读全文
posted @ 2018-03-15 10:50 JetHu 阅读(286) 评论(0) 推荐(0) 编辑
摘要: 在基于单词的检索方法中,同义词会降低检索算法的召回率(Recall),而多义词的存在会降低检索系统的准确率(Precision)。 阅读全文
posted @ 2018-03-05 18:07 JetHu 阅读(279) 评论(0) 推荐(0) 编辑
摘要: 搜索主要有以下几种算法:(引用刘超觉先博客) 枚举算法: 也即列举问题的所有状态从而寻找符合问题的解的方法。 适合用于状态较少,比较简单的问题上。 广度优先搜索: 从初始点开始,根据规则展开第一层节点,并检查目标节点是否在这些节点上,若没有,再将所有的第一层的节点逐一展开,得到第二层节点,如没有,则 阅读全文
posted @ 2018-03-05 10:54 JetHu 阅读(358) 评论(0) 推荐(0) 编辑
摘要: 1.聚类定义: 聚类算法将一系列文档聚团成多个子集或簇(cluster),其目标是建立类内紧密、类间分散的多个簇。换句话说,聚类的结果要求簇内的文档之间要尽可能相似,而簇间的文档之间则要尽可能不相似。 聚类是无监督学习(unsupervised learning)的一种最普遍的形式。无监督也意味着不 阅读全文
posted @ 2018-03-04 09:48 JetHu 阅读(2331) 评论(0) 推荐(0) 编辑
摘要: 子问题: 国王需要根据两个大臣的答案以及第9座金矿的信息才能判断出最多能够开采出多少金子。为了解决自己面临的问题,他需要给别人制造另外两个问题,这两个问题就是子问题。 思考动态规划的第一点 最优子结构: 国王相信,只要他的两个大臣能够回答出正确的答案(对于考虑能够开采出的金子数,最多的也就是最优的同 阅读全文
posted @ 2018-03-04 09:38 JetHu 阅读(2091) 评论(0) 推荐(0) 编辑