大数据与云计算 - 随笔分类(第3页) - 一天不进步，就是退步

The number of object passed must be even but was [1]

摘要：1.失败，使用TransportClient 原因是：setSource方法不支持json，源码如下： 2.成功，使用RestHighLevelClient 可以直接使用json 阅读全文

posted @ 2018-11-19 18:07 一天不进步，就是退步阅读(767) 评论(0) 推荐(0) 编辑

摘要：网上搜到批量查询可以通过TransportClient实现，但官方推荐使用RestHighLevelClient实现注意：查找最新的RestHighLevelClient api文档 https://www.elastic.co/guide/en/elasticsearch/client/jav 阅读全文

posted @ 2018-11-15 17:47 一天不进步，就是退步阅读(2741) 评论(0) 推荐(0) 编辑

lucene源码分析(4)Similarity相似度算法

摘要：lucene 7.5.0默认的评分Similarity是BM25Similarity (IndexSearcher.java) IDF公式 f（qi,D）:就是词频 |D|：[给定文档]D长度。 avgdl:索引中所有文档长度。早期的版本使用的是TFIDFSimilarity, Lucene TF 阅读全文

posted @ 2018-11-14 17:14 一天不进步，就是退步阅读(854) 评论(0) 推荐(0) 编辑

lucene-solr源码编译导入eclipse--转

摘要：https://www.jianshu.com/p/8a217ce05475 github地址：https://github.com/apache/lucene-solr 第一步：git clone https://github.com/apache/lucene-solr.git 下载项目第二步阅读全文

posted @ 2018-11-09 17:19 一天不进步，就是退步阅读(412) 评论(0) 推荐(0) 编辑

lucene源码分析(2)读取过程实例

摘要：1.官方提供的代码demo 2.涉及到的类及其关系 2.1 TokenStream 2.2 Analyzer 2.3 Directory 2.4 IndexWriter 阅读全文

posted @ 2018-11-09 16:24 一天不进步，就是退步阅读(401) 评论(0) 推荐(0) 编辑

lucene源码分析(1)基本要素

摘要：1.源码包 core: Lucene core library analyzers-common: Analyzers for indexing content in different languages and domains.analyzers-icu: Analysis integratio 阅读全文

posted @ 2018-11-09 11:35 一天不进步，就是退步阅读(804) 评论(0) 推荐(0) 编辑

lucene基本原理

摘要：1.术语 lucene 在存储它的全文索引结构时，是有层次结构的，这涉及到5个层次：索引(Index)；段(Segment)；文档(Document)；域(Field)；词(Term)，他们的关系如下图所示：（lucene 索引存储结构概念图）下图是Lucene生成的索引的一个实例，右边是对这5个阅读全文

posted @ 2018-11-09 10:07 一天不进步，就是退步阅读(836) 评论(0) 推荐(0) 编辑

elasticsearch分析系列

摘要：http://www.opscoder.info/category/ElasticSearch/?page=2 https://www.jianshu.com/p/0908b9ee65fc https://www.easyice.cn/archives/177 阅读全文

posted @ 2018-11-07 17:29 一天不进步，就是退步阅读(140) 评论(0) 推荐(0) 编辑

es索引的RestHighLevelClient实现

摘要：java代码：无用的import自动删除快捷键导入需要的包快捷键 shift+ctrl+o，自动导入包，当然也会清除掉多余的包。阅读全文

posted @ 2018-11-06 15:57 一天不进步，就是退步阅读(707) 评论(0) 推荐(0) 编辑

mongodb索引

摘要：注意：field不能加双引号，否则创建不成功/ http://www.runoob.com/mongodb/mongodb-indexing.html 索引通常能够极大的提高查询的效率，如果没有索引，MongoDB在读取数据时必须扫描集合中的每个文件并选取那些符合查询条件的记录。这种扫描全集合的查阅读全文

posted @ 2018-11-05 18:06 一天不进步，就是退步阅读(185) 评论(0) 推荐(0) 编辑

亿级别记录的mongodb批量导入Es的java代码完整实现

摘要：针对mongodb亿级别或者十亿级别的模糊查询，效率不高，解决方式是使用Es查询，这样就需要把数据导入的ES中完整的代码实现如下所示：(仅供参考) 阅读全文

posted @ 2018-11-05 15:34 一天不进步，就是退步阅读(536) 评论(1) 推荐(0) 编辑

Field [_id] is a metadata field and cannot be added inside a document. Use the index API request parameters--转

摘要：https://github.com/elasticquent/Elasticquent/issues/53 the data is coming from a Mongo DB instance. Don't worry, I've already subclassed the Elasticqu 阅读全文

posted @ 2018-11-02 16:40 一天不进步，就是退步阅读(2897) 评论(0) 推荐(0) 编辑

Elasticsearch使用BulkProcessor批量插入

摘要：https://www.elastic.co/guide/en/elasticsearch/client/java-rest/current/java-rest-high-document-bulk.html 阅读全文

posted @ 2018-11-02 16:30 一天不进步，就是退步阅读(1648) 评论(0) 推荐(0) 编辑

neuroph轻量级神经网络框架

摘要：https://github.com/neuroph/neuroph.git 阅读全文

posted @ 2018-08-15 17:44 一天不进步，就是退步阅读(234) 评论(0) 推荐(0) 编辑

hbase windows安装

摘要：下载目前最新版本 http://mirrors.hust.edu.cn/apache/hbase/stable/ 最新版本 hbase-1.2.6 1. 解压到D:\software\hbase-1.2.6 进入conf目录配置hbase-site.xml文件进入到bin目录运行： start 阅读全文

posted @ 2018-05-11 20:35 一天不进步，就是退步阅读(4733) 评论(0) 推荐(0) 编辑

使用hbase小结

摘要：背景 hbase中一张表的rowkey定义为时间戳+字符串需求根据时间戳和列簇中某列的值为"abc",导出一天内的数据到excel中。使用FilterList 1.rowkey的range，设置startrow和StopRow值 2.列值过滤，使用默认情况下，列值为空时把此行结果算入阅读全文

posted @ 2018-01-17 15:27 一天不进步，就是退步阅读(242) 评论(0) 推荐(0) 编辑

HBase Filter及对应Shell--转

摘要：http://www.cnblogs.com/skyl/p/4807793.html 比较运算符 CompareFilter.CompareOp比较运算符用于定义比较关系，可以有以下几类值供选择： EQUAL 相等 GREATER 大于 GREATER_OR_EQUAL 大于等于 LESS 小于 L 阅读全文

posted @ 2018-01-17 15:15 一天不进步，就是退步阅读(729) 评论(0) 推荐(0) 编辑

HBase 数据库检索性能优化策略--转

摘要：https://www.ibm.com/developerworks/cn/java/j-lo-HBase/index.html HBase 数据表介绍 HBase 数据库是一个基于分布式的、面向列的、主要用于非结构化数据存储用途的开源数据库。其设计思路来源于 Google 的非开源数据库”BigT 阅读全文

posted @ 2018-01-17 14:09 一天不进步，就是退步阅读(556) 评论(0) 推荐(0) 编辑

当我说要做大数据工程师时他们都笑我，直到三个月后……转

摘要：GitChat 作者：Fickr孫啟誠原文：三个月大数据研发学习计划实战解析关注微信公众号：「GitChat 技术杂谈」一本正经的讲技术【不要错过文末彩蛋】申明：本文旨在为普通程序员（Java程序员最佳）提供一个入门级别的大数据技术学习路径，不适用于大数据工程师的进阶学习，也不适用于零阅读全文

posted @ 2017-10-30 17:03 一天不进步，就是退步阅读(876) 评论(0) 推荐(0) 编辑

Flume日志收集系统架构详解--转

摘要：2017-09-06 朱洁大数据和云计算技术任何一个生产系统在运行过程中都会产生大量的日志，日志往往隐藏了很多有价值的信息。在没有分析方法之前，这些日志存储一段时间后就会被清理。随着技术的发展和分析能力的提高，日志的价值被重新重视起来。在分析这些日志之前，需要将分散在各个生产系统中的日志收集起来阅读全文

posted @ 2017-09-06 11:40 一天不进步，就是退步阅读(1394) 评论(0) 推荐(0) 编辑

随笔分类 - 大数据与云计算