随笔分类 -  大数据与云计算

上一页 1 2 3 4 5 6 下一页
分布式计算 大数据 虚拟化
The number of object passed must be even but was [1]
摘要:1.失败,使用TransportClient 原因是:setSource方法不支持json,源码如下: 2.成功,使用RestHighLevelClient 可以直接使用json 阅读全文
posted @ 2018-11-19 18:07 一天不进步,就是退步 阅读(683) 评论(0) 推荐(0) 编辑
elasticsearch版本不同,批量查询也不相同
摘要:网上搜到批量查询可以通过TransportClient实现,但官方推荐使用RestHighLevelClient实现 注意: 查找最新的RestHighLevelClient api文档 https://www.elastic.co/guide/en/elasticsearch/client/jav 阅读全文
posted @ 2018-11-15 17:47 一天不进步,就是退步 阅读(2730) 评论(0) 推荐(0) 编辑
lucene源码分析(4)Similarity相似度算法
摘要:lucene 7.5.0默认的评分Similarity是BM25Similarity (IndexSearcher.java) IDF公式 f(qi,D):就是词频 |D|:[给定文档]D长度。 avgdl:索引中所有文档长度。 早期的版本使用的是TFIDFSimilarity, Lucene TF 阅读全文
posted @ 2018-11-14 17:14 一天不进步,就是退步 阅读(830) 评论(0) 推荐(0) 编辑
lucene-solr源码编译导入eclipse--转
摘要:https://www.jianshu.com/p/8a217ce05475 github地址:https://github.com/apache/lucene-solr 第一步:git clone https://github.com/apache/lucene-solr.git 下载项目 第二步 阅读全文
posted @ 2018-11-09 17:19 一天不进步,就是退步 阅读(407) 评论(0) 推荐(0) 编辑
lucene源码分析(2)读取过程实例
摘要:1.官方提供的代码demo 2.涉及到的类及其关系 2.1 TokenStream 2.2 Analyzer 2.3 Directory 2.4 IndexWriter 阅读全文
posted @ 2018-11-09 16:24 一天不进步,就是退步 阅读(377) 评论(0) 推荐(0) 编辑
lucene源码分析(1)基本要素
摘要:1.源码包 core: Lucene core library analyzers-common: Analyzers for indexing content in different languages and domains.analyzers-icu: Analysis integratio 阅读全文
posted @ 2018-11-09 11:35 一天不进步,就是退步 阅读(731) 评论(0) 推荐(0) 编辑
lucene基本原理
摘要:1.术语 lucene 在存储它的全文索引结构时,是有层次结构的,这涉及到5个层次:索引(Index);段(Segment);文档(Document);域(Field);词(Term),他们的关系如下图所示:(lucene 索引存储结构概念图) 下图是Lucene生成的索引的一个实例,右边是对这5个 阅读全文
posted @ 2018-11-09 10:07 一天不进步,就是退步 阅读(829) 评论(0) 推荐(0) 编辑
elasticsearch分析系列
摘要:http://www.opscoder.info/category/ElasticSearch/?page=2 https://www.jianshu.com/p/0908b9ee65fc https://www.easyice.cn/archives/177 阅读全文
posted @ 2018-11-07 17:29 一天不进步,就是退步 阅读(138) 评论(0) 推荐(0) 编辑
es索引的RestHighLevelClient实现
摘要:java代码: 无用的import自动删除快捷键 导入需要的包快捷键 shift+ctrl+o,自动导入包,当然也会清除掉多余的包。 阅读全文
posted @ 2018-11-06 15:57 一天不进步,就是退步 阅读(704) 评论(0) 推荐(0) 编辑
mongodb索引
摘要:注意:field不能加双引号,否则创建不成功/ http://www.runoob.com/mongodb/mongodb-indexing.html 索引通常能够极大的提高查询的效率,如果没有索引,MongoDB在读取数据时必须扫描集合中的每个文件并选取那些符合查询条件的记录。 这种扫描全集合的查 阅读全文
posted @ 2018-11-05 18:06 一天不进步,就是退步 阅读(183) 评论(0) 推荐(0) 编辑
亿级别记录的mongodb批量导入Es的java代码完整实现
摘要:针对mongodb亿级别或者十亿级别的模糊查询,效率不高,解决方式是使用Es查询,这样就需要把数据导入的ES中 完整的代码实现如下所示:(仅供参考) 阅读全文
posted @ 2018-11-05 15:34 一天不进步,就是退步 阅读(506) 评论(0) 推荐(0) 编辑
Field [_id] is a metadata field and cannot be added inside a document. Use the index API request parameters--转
摘要:https://github.com/elasticquent/Elasticquent/issues/53 the data is coming from a Mongo DB instance. Don't worry, I've already subclassed the Elasticqu 阅读全文
posted @ 2018-11-02 16:40 一天不进步,就是退步 阅读(2840) 评论(0) 推荐(0) 编辑
Elasticsearch使用BulkProcessor批量插入
摘要:https://www.elastic.co/guide/en/elasticsearch/client/java-rest/current/java-rest-high-document-bulk.html 阅读全文
posted @ 2018-11-02 16:30 一天不进步,就是退步 阅读(1644) 评论(0) 推荐(0) 编辑
neuroph轻量级神经网络框架
摘要:https://github.com/neuroph/neuroph.git 阅读全文
posted @ 2018-08-15 17:44 一天不进步,就是退步 阅读(234) 评论(0) 推荐(0) 编辑
hbase windows安装
摘要:下载目前最新版本 http://mirrors.hust.edu.cn/apache/hbase/stable/ 最新版本 hbase-1.2.6 1. 解压到D:\software\hbase-1.2.6 进入conf目录 配置hbase-site.xml文件 进入到bin目录 运行: start 阅读全文
posted @ 2018-05-11 20:35 一天不进步,就是退步 阅读(4725) 评论(0) 推荐(0) 编辑
使用hbase小结
摘要:背景 hbase中一张表的rowkey定义为时间戳+字符串 需求 根据时间戳和列簇中某列的值为"abc",导出一天内的数据到excel中。 使用FilterList 1.rowkey的range,设置startrow和StopRow值 2.列值过滤,使用 默认情况下,列值为空时把此行结果算入 阅读全文
posted @ 2018-01-17 15:27 一天不进步,就是退步 阅读(239) 评论(0) 推荐(0) 编辑
HBase Filter及对应Shell--转
摘要:http://www.cnblogs.com/skyl/p/4807793.html 比较运算符 CompareFilter.CompareOp比较运算符用于定义比较关系,可以有以下几类值供选择: EQUAL 相等 GREATER 大于 GREATER_OR_EQUAL 大于等于 LESS 小于 L 阅读全文
posted @ 2018-01-17 15:15 一天不进步,就是退步 阅读(728) 评论(0) 推荐(0) 编辑
HBase 数据库检索性能优化策略--转
摘要:https://www.ibm.com/developerworks/cn/java/j-lo-HBase/index.html HBase 数据表介绍 HBase 数据库是一个基于分布式的、面向列的、主要用于非结构化数据存储用途的开源数据库。其设计思路来源于 Google 的非开源数据库”BigT 阅读全文
posted @ 2018-01-17 14:09 一天不进步,就是退步 阅读(548) 评论(0) 推荐(0) 编辑
当我说要做大数据工程师时他们都笑我,直到三个月后……转
摘要:GitChat 作者:Fickr孫啟誠 原文: 三个月大数据研发学习计划实战解析 关注微信公众号:「GitChat 技术杂谈」 一本正经的讲技术 【不要错过文末彩蛋】 申明: 本文旨在为普通程序员(Java程序员最佳)提供一个入门级别的大数据技术学习路径,不适用于大数据工程师的进阶学习,也不适用于零 阅读全文
posted @ 2017-10-30 17:03 一天不进步,就是退步 阅读(874) 评论(0) 推荐(0) 编辑
Flume日志收集系统架构详解--转
摘要:2017-09-06 朱洁 大数据和云计算技术 任何一个生产系统在运行过程中都会产生大量的日志,日志往往隐藏了很多有价值的信息。在没有分析方法之前,这些日志存储一段时间后就会被清理。随着技术的发展和分析能力的提高,日志的价值被重新重视起来。在分析这些日志之前,需要将分散在各个生产系统中的日志收集起来 阅读全文
posted @ 2017-09-06 11:40 一天不进步,就是退步 阅读(1375) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 下一页