JetHu

2018年9月6日

摘要： Word2Vec 词向量的稠密表达形式（无标签语料库训练） Word2vec中要到两个重要的模型，CBOW连续词袋模型和Skip-gram模型。两个模型都包含三层：输入层，投影层，输出层。 1.Skip-Gram神经网络模型（跳过一些词） skip-gram模型的输入是一个单词wI，它的输出是wI的阅读全文

posted @ 2018-09-06 21:42 JetHu 阅读(2239) 评论(0) 推荐(0)

Global Vectors forWord Representation

摘要：参考论文： GloVe: Global Vectors forWord Representation 参考博客：https://blog.csdn.net/coderTC/article/details/73864097 理解GloVe模型： glove 模型类似于word2vec模型，都是一种词的阅读全文

posted @ 2018-09-06 21:41 JetHu 阅读(275) 评论(0) 推荐(0)

2018年9月3日

Latent Semantic Analysis(LSA/ LSI)原理简介

摘要： LSA的工作原理： How Latent Semantic Analysis Works LSA被广泛用于文献检索，文本分类，垃圾邮件过滤，语言识别，模式检索以及文章评估自动化等场景。 LSA其中一个目的是解决如通过搜索词/关键词（search words）定位出相关文章。如何通过对比单词来定位文章阅读全文

posted @ 2018-09-03 17:46 JetHu 阅读(2268) 评论(0) 推荐(0)

2018年7月26日

目前最快速的多线程Kmeans算法，java实现

摘要：目前最快速Kmeans算法，并由java实现！面对很大的K值表现依然很好。代码地址： https://github.com/Jethu1/fastKmeans #1.这是一个由java实现的的，多线程Kmeans聚类算法； #2.在聚类的选种阶段分别实现了Kmeans++算法和NIPS 2016的阅读全文

posted @ 2018-07-26 20:23 JetHu 阅读(837) 评论(0) 推荐(0)

2018年3月23日

UndertowServer+SpringMVC+Thymeleaf模板引擎构建轻量级的web项目

摘要：这两周需要写一个页面来请求另一个服务中的接口，服务器采用了超轻量级的undertow，模板引擎采用的是Thymeleaf，在寻找页面资源位置这个地方难住了我。下面分享一下，这方面的代码。 SpringWebConfig方面：阅读全文

posted @ 2018-03-23 21:11 JetHu 阅读(1631) 评论(0) 推荐(0)

2018年3月15日

中文分词之逆向最大匹配算法结合时间位置进行分词

摘要：之前基于Lucene分词组件探索了按时间位置进行中文分词的算法，中文分词方面采用了最大逆向匹配算法，由于时间信息保存在一个List中，当每个词被切割出来时，其时间信息将会同时按序提取。将分词结果写入倒排索引的词表，时间信息写入到倒排表中的offset属性中。停词表和词汇表都保存在HashSet中。阅读全文

posted @ 2018-03-15 10:50 JetHu 阅读(338) 评论(0) 推荐(0)

2018年3月5日

Lucene 索引与检索架构图

摘要：在基于单词的检索方法中，同义词会降低检索算法的召回率(Recall)，而多义词的存在会降低检索系统的准确率(Precision)。阅读全文

posted @ 2018-03-05 18:07 JetHu 阅读(285) 评论(0) 推荐(0)

搜索算法

摘要：搜索主要有以下几种算法：（引用刘超觉先博客）枚举算法：也即列举问题的所有状态从而寻找符合问题的解的方法。适合用于状态较少，比较简单的问题上。广度优先搜索：从初始点开始，根据规则展开第一层节点，并检查目标节点是否在这些节点上，若没有，再将所有的第一层的节点逐一展开，得到第二层节点，如没有，则阅读全文

posted @ 2018-03-05 10:54 JetHu 阅读(407) 评论(0) 推荐(0)

2018年3月4日

聚类

摘要： 1.聚类定义: 聚类算法将一系列文档聚团成多个子集或簇（cluster），其目标是建立类内紧密、类间分散的多个簇。换句话说，聚类的结果要求簇内的文档之间要尽可能相似，而簇间的文档之间则要尽可能不相似。聚类是无监督学习（unsupervised learning）的一种最普遍的形式。无监督也意味着不阅读全文

posted @ 2018-03-04 09:48 JetHu 阅读(2426) 评论(0) 推荐(0)

动态规划--国王挖金矿问题

摘要：子问题：国王需要根据两个大臣的答案以及第9座金矿的信息才能判断出最多能够开采出多少金子。为了解决自己面临的问题，他需要给别人制造另外两个问题，这两个问题就是子问题。思考动态规划的第一点最优子结构：国王相信，只要他的两个大臣能够回答出正确的答案（对于考虑能够开采出的金子数，最多的也就是最优的同阅读全文

posted @ 2018-03-04 09:38 JetHu 阅读(2229) 评论(0) 推荐(0)

公告