摘要: 使用的是IDEA,直接引入 放在build.gradle的最上面,然后执行shadowJar即可。 网上说有一种方法 这种方法确实打入进去了,但是运行的时候报错,异常如下: 不知道什么原因,不过用第三方插件暂时可以解决,原因慢慢排查了。 另外还有一种方法可以运行,不过依赖单独放入一个lib目录下,也 阅读全文
posted @ 2018-02-05 21:57 EvilTuzki 阅读(4815) 评论(0) 推荐(0) 编辑
摘要: 单机搭建了2.6.5的伪分布式集群,写了一个tf-idf计算程序,分词用的是结巴分词,使用standalone模式运行没有任何问题,切换到伪分布式模式运行一直报错: hadoop is running beyond virtual memory limits 大概意思就是使用虚拟内存超出了限制。 网 阅读全文
posted @ 2018-02-04 18:15 EvilTuzki 阅读(412) 评论(0) 推荐(0) 编辑
摘要: C#标准是首字母大写,Java规范是首字母小写,在序列化成Json之后,反序列化会出现反序列化失败的问题。。 从C#反序列化成JavaBean的时候通过如下注解可以直接解决该问题 将该注解放到对应的class上,即可从大写首字母的Json串,反序列化成JavaBean。 阅读全文
posted @ 2018-01-19 17:06 EvilTuzki 阅读(584) 评论(0) 推荐(0) 编辑
摘要: 学习Hadoop 实现TF-IDF 算法,使用的是CDH5.13.1 VM版本,Hadoop用的是2.6.0的jar包,Maven中增加如下即可 代码如下: 整体实现算是比较简单,第一个MR计算idf,map是统计每个文档出现过的词,都记成1次,然后reducer统计所有的,这样就得到了每一个词的i 阅读全文
posted @ 2018-01-14 22:36 EvilTuzki 阅读(277) 评论(0) 推荐(0) 编辑
摘要: 在IDE下调试怎么也没有发现问题,但是部署到服务器上,提示找不到资源,找了半天资料总算是找到了原因: Jar包中的资源加载不能使用File方式,只能使用InputStream方式读取。知道原因就好解决了,如下: 网上教程有一种说法用ResourceUtils的extractJarFileURL方法可 阅读全文
posted @ 2018-01-10 16:10 EvilTuzki 阅读(426) 评论(0) 推荐(0) 编辑
摘要: 程序运行时出现如下问题: 从网上查资料,有说重启format的。。有说/etc/hosts出问题的。。。 反正都试了一遍。。还是有这个问题 后来看日志,发现问题是访问服务器9001端口访问不到。。开始怀疑自己配置文件有问题。既然是9001,那就肯定是mapred的问题, 看了配置文件内容 也没发现有 阅读全文
posted @ 2018-01-07 21:20 EvilTuzki 阅读(2110) 评论(0) 推荐(0) 编辑
摘要: 对分词字段检索使用的通常是match查询,对于短语查询使用的是matchphrase查询,但是并不是matchphrase可以直接对分词字段进行不分词检索(也就是业务经常说的精确匹配),下面有个例子,使用Es的请注意。 某个Index下面存有如下内容 { "id": "1", "fulltext": 阅读全文
posted @ 2018-01-03 12:21 EvilTuzki 阅读(7518) 评论(2) 推荐(1) 编辑
摘要: ES查询中,先聚合,在聚合结果中进行过滤 有include,自然就有exclude,用法一样,支持通配符匹配(正则方式)。 阅读全文
posted @ 2018-01-03 12:19 EvilTuzki 阅读(2259) 评论(0) 推荐(0) 编辑