随笔档案「2016年12月」 - Arli

实时事件统计项目:优化solr和morphline的时间字段

摘要：morphline优化，如下: 传过来的时间戳被复制到3个字段:eventTimeInMinuteChina_tdt ,eventTimeInMinuteUTC_tdt ,eventTimeInHourUTC_tdt 。 eventTimeInMinuteChina_tdt:用于显示以及按中国时间来阅读全文

posted @ 2016-12-28 17:40 Arli 阅读(943) 评论(0) 推荐(0)

实时事件统计项目：优化flume:用file channel代替mem channel

摘要：背景:利用kafka+flume+morphline+solr做实时统计。 solr从12月23号开始一直没有数据。查看日志发现,因为有一个同事加了一条格式错误的埋点数据，导致大量error。据推断，是因为使用mem channel占满，消息来不及处理，导致新来的数据都丢失了。修改flume使用阅读全文

posted @ 2016-12-28 17:30 Arli 阅读(3029) 评论(0) 推荐(0)

实战:考虑性能--Solr索引的schema设计

摘要：从 high level 的角度来看，schema.xml 结果如下,这个例子虽然不是一个真实的XML，但是简洁明了的传达了shema的概念。绝大部分设计工作和内容都在types和fields中，这两个元素定义了索引的字段和类型，再辅以copyField。夹在copyField和fileds之间的阅读全文

posted @ 2016-12-22 15:48 Arli 阅读(834) 评论(0) 推荐(0)

再探banana

摘要：在Solr图形化界面:除Hue之外的选择中列出了banana的如下一些不足，今天再次研究这些地方是否有方案可以解决。 1.sunburst图功能没法用。 2.中文有些地方会显示%2B%4C之类的一串字符。 3.facet功能没Hue好看。(不过Hue只能显示最多10条记录,Banana没有这个限制) 阅读全文

posted @ 2016-12-21 08:50 Arli 阅读(393) 评论(2) 推荐(0)

Cloudera5.8.3 HBase1.2.0开发必须的jar包

摘要：Cloudera的HBase开发环境下载依赖包特别麻烦，通常是直接在CDH服务器上拷。阅读全文

posted @ 2016-12-20 11:11 Arli 阅读(1373) 评论(0) 推荐(0)

Solr图形化界面banana:除Hue之外的选择

摘要：最近Hue+Solr 方案原型验证有了一些进展。正好也收到了Google的大数据专家Sam的来件询问进展，我答复如下： Sam的回信: 对于Sam说的来不及index最近的call，并且话务员可能希望在接电话之前的那一秒就显示出来：这两句话我作了考虑，一是kafka+flume+solr的index 阅读全文

posted @ 2016-12-19 20:21 Arli 阅读(3495) 评论(3) 推荐(0)

Solr页面查询各个字段参数解释

摘要：q:查询的关键字，此参数最为重要，例如，q=id:1，默认为q=*:*，类似于sql中的where 1=1。 fq（filter query）:过滤查询，提供一个可选的筛选器查询。返回在q查询符合结果中同时符合的fq条件的查询结果，例如：q=id:1&fq=sort:[1 TO 5]&fq=sect 阅读全文

posted @ 2016-12-13 11:32 Arli 阅读(7785) 评论(4) 推荐(0)

Cloudera5.8.3:Flume+Morphline+Solr开发小技巧

摘要：1.Flume和Morphline添加日志打印 2.在线更新solr collection配置 3.删除solr已经有的index文件 4.CDH5.8.3对应的Solr 4时区怎么更改? 不支持更改时区，Solr4时区有bug。有下面3种方式规避。 1)可以建个额外字段专门存UTC时区的时间。 2 阅读全文

posted @ 2016-12-12 20:46 Arli 阅读(969) 评论(0) 推荐(0)

json数据处理实战:Kafka+Flume+Morphline+Solr+Hue数据组合索引

摘要：背景：Kafka消息总线的建成，使各个系统的数据得以在kafka节点中汇聚，接下来面临的任务是最大化数据的价值，让数据“慧”说话。环境准备： Kafka服务器*3。 CDH 5.8.3服务器*3，安装Flume,Solr,Hue,HDFS,Zookeeper服务。 Flume提供了可扩展的实时数据阅读全文

posted @ 2016-12-11 00:12 Arli 阅读(4021) 评论(0) 推荐(0)

Hadoop+MongoDB的四种方案

摘要：背景：公司核心业务库现存在MongoDB中，分布在6台MongoDB节点。现面临如下问题： 1.最大的一张表有10多个G,MongoDB在查询方面尚能胜任，但是涉及到复杂计算时会比较吃力。 2.MongoDB中有三张表，分别记录了最终用户在三个不同系统(电话，游戏，桌牌等)的行为，需要按用户汇聚成阅读全文

posted @ 2016-12-07 16:02 Arli 阅读(9825) 评论(0) 推荐(0)

Solr实战:使用Hue+Solr实现标签查询

摘要：公司最近在研究多条件组合查询方案，Google的一位技术专家Sam和我们讨论了几个备选方案。 Sam的信：我做了进一步研究，目前有这么几种做法： 1）最直接粗暴，只做一个主index，比如按行业＋地区做一个index，这样来说的话，无论多少个标签的查询，直接先用主index做一个筛选，这样下来可阅读全文

posted @ 2016-12-06 18:50 Arli 阅读(3310) 评论(0) 推荐(0)

solrconfig.xml介绍

摘要：说明:请务必先了解如下知识，否则阅读本文会晕。 Solr术语介绍:SolrCloud,单机Solr,Collection,Shard,Replica,Core之间的关系 Solr通过三个主要文件来作配置:solr.xml,solrconfig.xml,shema.xml。在Solr 4.5以前，(S 阅读全文

posted @ 2016-12-04 21:18 Arli 阅读(1014) 评论(0) 推荐(0)

Solr术语介绍:SolrCloud,单机Solr,Collection,Shard,Replica,Core之间的关系

摘要：Solr有一堆让人发晕的术语如:collections,shards,replicas,cores,config sets. 在了解这些术语之前需要先做做如下功课： 1)什么是倒排索引? 2)搜索引擎是怎么工作的? Solr术语介绍： Collections:SolrCloud集群中的一个完整的逻辑阅读全文

posted @ 2016-12-03 17:50 Arli 阅读(8645) 评论(0) 推荐(1)

搜索引擎导论

摘要：一、总论一、总论根据http://lucene.apache.org/java/docs/index.html 定义： "Apache Lucene(TM) is a high-performance, full-featured text search engine library writt 阅读全文

posted @ 2016-12-02 16:35 Arli 阅读(934) 评论(0) 推荐(0)

storm实战:基于storm,kafka,mysql的实时统计系统

摘要：公司对客户开放多个系统，运营人员想要了解客户使用各个系统的情况，在此之前，数据平台团队已经建设好了统一的Kafka消息通道。为了保证架构能够满足业务可能的扩张后的性能要求，选用storm来处理各个应用系统上传到kafka中的埋点数据并在Mysql中汇聚。埋点数据上报的格式为json，会上报类似如阅读全文

posted @ 2016-12-01 21:00 Arli 阅读(4628) 评论(4) 推荐(0)

Code Job

Looking up the sky while feet ta shi di

12 2016 档案

公告