07 2017 档案
摘要:消息通过各种方式进入到Kafka消息中间件,比如可以通过使用Flume来收集日志数据,然后在Kafka中路由暂存,然后再由实时计算程序Storm做实时分析,最后将结果保存在HDFS中,这时我们就需要将在Storm的Spout中读取Kafka中的消息,然后交由具体的Spot组件去分析处理。下面开发一个
阅读全文
摘要:IMP-00058: 遇到 Oracle 错误 1691ORA-01691: Lob 段YQPRO.SYS_LOB0000031467C00006$$无法通过128(在表空间YQPRO中)扩展这种情况是由于表空间 容量不够引起的,需要扩大表空间就可以了 方法1:给表空间增加数据文件 ALTER TA
阅读全文
摘要:Missing artifact com.sun:tools:jar 1.7.0 解决办法一: 手动配置pom.xml,添加一个dependency如下: 即可! 如果办法不能解决,试用第二种方法。 解决办法二: 首先,查看错误列表windows->Show View->Problems,在有以上问
阅读全文
摘要:SLF4J: Detected both log4j-over-slf4j.jar AND slf4j-log4j12.jar on the class path, preempting StackOverflowError.SLF4J: See also http://www.slf4j.org/
阅读全文
摘要:1. zookeeper集群 zookeeper是一个为分布式应用提供一致性服务的软件,它是开源的Hadoop项目的一个子项目,并根据google发表的一篇论文来实现的。zookeeper为分布式系统提供了高笑且易于使用的协同服务,它可以为分布式应用提供相当多的服务,诸如统一命名服务,配置管理,状态
阅读全文
摘要:1. 基本介绍 Kafka是linkedin用于日志处理的分布式消息队列,linkedin的日志数据容量大,但对可靠性要求不高,其日志数据主要包括用户行为(登录、浏览、点击、分享、喜欢)以及系统运行日志(CPU、内存、磁盘、网络、系统及进程状态 kafka的集群由多个Broker服务器组成,每个类型
阅读全文
摘要:1. 触发器简介 触发器是存储在数据库服务器中的程序单元,当一个表或一个视图被改变,或者数据库发生某些事件时,Oracle会自动触发触发器,并执行触发器中的代码。只有在触发器中定义的事件发生时,触发器才被触发。触发器是自动执行的代码块,和存储过程的区别在于,用户可以直接调用存储过程,而不能直接调用触
阅读全文
摘要:Oracle表空间不足,一般有两个原因: 1. 原表空间太小,没有自增长; 2. 表空间已自增长,而且表空间也已足够大 检查原因: 【解决办法-原因一】 只要将表空间设置为足够大,并设置为自增长即可。 1. 扩展表空间 alter database datafile 'D:\oracle\PRODU
阅读全文
摘要:导入按表导出的数据的时候,提示为无界导出文件指定了多个输入文件 命令如下: imp user/user@database file=e:\test.dmp 解决方法: 在tables后面添加一个等号,如下: imp apde/1234@apde file=e:\apde103.dmp tables=
阅读全文
摘要:有时会遇到CDH集群的7180页面无法访问,通过命令查看服务发现: 删除pid文件: 然后启动服务cloudera-scm-server时会遇到过一段时间自己挂掉,并返回cloudera-scm-server dead but pid file exists的问题,主要是在cloudera-scm-
阅读全文
摘要:1. 召回率和精准度 比如你搜索一个java spark,总共有100个doc,能返回多少个doc作为结果,就是召回率,recall 精准度,比如你搜索一个java spark,能不能尽可能让包含java spark,或者是java和spark离的很近的doc,排在最前面,precision 直接用
阅读全文
摘要:1. 近似匹配 什么是近似匹配,两个句子 java is my favourite programming language, and I also think spark is a very good big data system.java spark are very related, bec
阅读全文
摘要:1. cross-fields搜索 一个唯一标识,跨了多个field。比如一个人,标识,是姓名;一个建筑,它的标识是地址。姓名可以散落在多个field中,比如first_name和last_name中,地址可以散落在country,province,city中。跨多个field搜索一个标识,比如搜索
阅读全文
摘要:1. 为帖子数据增加content字段 POST /forum/article/_bulk { "update": { "_id": "1"} } { "doc" : {"content" : "i like to write best elasticsearch article"} } { "up
阅读全文
摘要:1. 普通match如何转换为term+should { "match": { "title": "java elasticsearch"}} 使用诸如上面的match query进行多值搜索的时候,es会在底层自动将这个match query转换为bool的语法,bool should,指定多个搜
阅读全文
摘要:1. 为帖子增加标题字段 POST /forum/article/_bulk { "update": { "_id": "1"} } { "doc" : {"title" : "this is java and elasticsearch blog"} } { "update": { "_id":
阅读全文
摘要:1. fielddata核心原理 fielddata加载到内存的过程是lazy加载的,对一个analzyed field执行聚合时,才会加载,而且是field-level加载的,一个index的一个field,所有doc都会被加载,而不是少数doc,不是index-time创建,是query-tim
阅读全文
摘要:1. 需求:比如有一个网站,记录下了每次请求的访问的耗时,需要统计tp50,tp90,tp99 tp50:50%的请求的耗时最长在多长时间tp90:90%的请求的耗时最长在多长时间tp99:99%的请求的耗时最长在多长时间 PUT /website { "mappings": { "logs": {
阅读全文
摘要:1. 统计指定品牌下每个颜色的销量 任何的聚合,都必须在搜索出来的结果数据中进行,搜索结果,就是聚合分析操作的scope 2. 单个品牌与所有品牌销量对比 一个聚合操作,必须在query的搜索结果范围内执行出来两个结果,一个结果,是基于query搜索结果来聚合的; 一个结果,是对所有数据执行聚合的
阅读全文
摘要:以一个家电卖场中的电视销售数据为背景,来对各种品牌,各种颜色的电视的销量和销售额,进行各种各样角度的分析,首先建立电视销售的索引,然后 添加几条销售记录 PUT /tvs { "mappings": { "sales": { "properties": { "price": { "type": "l
阅读全文
摘要:首先明白两个核心概念:bucket和metric 1. bucket:一个数据分组 基于city划分buckets,划分出来两个bucket,一个是北京bucket,一个是上海bucket 北京bucket:包含了2个人,小李,小王上海bucket:包含了3个人,小张,小丽,小陈 按照某个字段进行b
阅读全文