12 2016 档案

摘要:morphline优化,如下: 传过来的时间戳被复制到3个字段:eventTimeInMinuteChina_tdt ,eventTimeInMinuteUTC_tdt ,eventTimeInHourUTC_tdt 。 eventTimeInMinuteChina_tdt:用于显示以及按中国时间来 阅读全文
posted @ 2016-12-28 17:40 Arli 阅读(943) 评论(0) 推荐(0)
摘要:背景:利用kafka+flume+morphline+solr做实时统计。 solr从12月23号开始一直没有数据。查看日志发现,因为有一个同事加了一条格式错误的埋点数据,导致大量error。 据推断,是因为使用mem channel占满,消息来不及处理,导致新来的数据都丢失了。 修改flume使用 阅读全文
posted @ 2016-12-28 17:30 Arli 阅读(3029) 评论(0) 推荐(0)
摘要:从 high level 的角度来看,schema.xml 结果如下,这个例子虽然不是一个真实的XML,但是简洁明了的传达了shema的概念。 绝大部分设计工作和内容都在types和fields中,这两个元素定义了索引的字段和类型,再辅以copyField。夹在copyField和fileds之间的 阅读全文
posted @ 2016-12-22 15:48 Arli 阅读(834) 评论(0) 推荐(0)
摘要:在Solr图形化界面:除Hue之外的选择中列出了banana的如下一些不足,今天再次研究这些地方是否有方案可以解决。 1.sunburst图功能没法用。 2.中文有些地方会显示%2B%4C之类的一串字符。 3.facet功能没Hue好看。(不过Hue只能显示最多10条记录,Banana没有这个限制) 阅读全文
posted @ 2016-12-21 08:50 Arli 阅读(393) 评论(2) 推荐(0)
摘要:Cloudera的HBase开发环境下载依赖包特别麻烦,通常是直接在CDH服务器上拷。 阅读全文
posted @ 2016-12-20 11:11 Arli 阅读(1373) 评论(0) 推荐(0)
摘要:最近Hue+Solr 方案原型验证有了一些进展。正好也收到了Google的大数据专家Sam的来件询问进展,我答复如下: Sam的回信: 对于Sam说的来不及index最近的call,并且话务员可能希望在接电话之前的那一秒就显示出来:这两句话我作了考虑,一是kafka+flume+solr的index 阅读全文
posted @ 2016-12-19 20:21 Arli 阅读(3495) 评论(3) 推荐(0)
摘要:q:查询的关键字,此参数最为重要,例如,q=id:1,默认为q=*:*,类似于sql中的where 1=1。 fq(filter query):过滤查询,提供一个可选的筛选器查询。返回在q查询符合结果中同时符合的fq条件的查询结果,例如:q=id:1&fq=sort:[1 TO 5]&fq=sect 阅读全文
posted @ 2016-12-13 11:32 Arli 阅读(7785) 评论(4) 推荐(0)
摘要:1.Flume和Morphline添加日志打印 2.在线更新solr collection配置 3.删除solr已经有的index文件 4.CDH5.8.3对应的Solr 4时区怎么更改? 不支持更改时区,Solr4时区有bug。有下面3种方式规避。 1)可以建个额外字段专门存UTC时区的时间。 2 阅读全文
posted @ 2016-12-12 20:46 Arli 阅读(969) 评论(0) 推荐(0)
摘要:背景:Kafka消息总线的建成,使各个系统的数据得以在kafka节点中汇聚,接下来面临的任务是最大化数据的价值,让数据“慧”说话。 环境准备: Kafka服务器*3。 CDH 5.8.3服务器*3,安装Flume,Solr,Hue,HDFS,Zookeeper服务。 Flume提供了可扩展的实时数据 阅读全文
posted @ 2016-12-11 00:12 Arli 阅读(4021) 评论(0) 推荐(0)
摘要:背景: 公司核心业务库现存在MongoDB中,分布在6台MongoDB节点。现面临如下问题: 1.最大的一张表有10多个G,MongoDB在查询方面尚能胜任,但是涉及到复杂计算时会比较吃力。 2.MongoDB中有三张表,分别记录了最终用户在三个不同系统(电话,游戏,桌牌等)的行为,需要按用户汇聚成 阅读全文
posted @ 2016-12-07 16:02 Arli 阅读(9825) 评论(0) 推荐(0)
摘要:公司最近在研究多条件组合查询方案,Google的一位技术专家Sam和我们讨论了几个备选方案。 Sam的信: 我做了进一步研究,目前有这么几种做法: 1) 最直接粗暴,只做一个主index,比如按行业+地区做一个index,这样来说的话,无论多少个标签的查询,直接先用主index做一个筛选,这样下来可 阅读全文
posted @ 2016-12-06 18:50 Arli 阅读(3310) 评论(0) 推荐(0)
摘要:说明:请务必先了解如下知识,否则阅读本文会晕。 Solr术语介绍:SolrCloud,单机Solr,Collection,Shard,Replica,Core之间的关系 Solr通过三个主要文件来作配置:solr.xml,solrconfig.xml,shema.xml。在Solr 4.5以前,(S 阅读全文
posted @ 2016-12-04 21:18 Arli 阅读(1014) 评论(0) 推荐(0)
摘要:Solr有一堆让人发晕的术语如:collections,shards,replicas,cores,config sets. 在了解这些术语之前需要先做做如下功课: 1)什么是倒排索引? 2)搜索引擎是怎么工作的? Solr术语介绍: Collections:SolrCloud集群中的一个完整的逻辑 阅读全文
posted @ 2016-12-03 17:50 Arli 阅读(8645) 评论(0) 推荐(1)
摘要:一、总论 一、总论 根据http://lucene.apache.org/java/docs/index.html 定义: "Apache Lucene(TM) is a high-performance, full-featured text search engine library writt 阅读全文
posted @ 2016-12-02 16:35 Arli 阅读(934) 评论(0) 推荐(0)
摘要:公司对客户开放多个系统,运营人员想要了解客户使用各个系统的情况,在此之前,数据平台团队已经建设好了统一的Kafka消息通道。 为了保证架构能够满足业务可能的扩张后的性能要求,选用storm来处理各个应用系统上传到kafka中的埋点数据并在Mysql中汇聚。 埋点数据上报的格式为json,会上报类似如 阅读全文
posted @ 2016-12-01 21:00 Arli 阅读(4628) 评论(4) 推荐(0)