随笔档案「2017年7月」 - 天~宇~翱~翔

Kafka+Storm+HDFS 整合示例

摘要：消息通过各种方式进入到Kafka消息中间件，比如可以通过使用Flume来收集日志数据，然后在Kafka中路由暂存，然后再由实时计算程序Storm做实时分析，最后将结果保存在HDFS中，这时我们就需要将在Storm的Spout中读取Kafka中的消息，然后交由具体的Spot组件去分析处理。下面开发一个阅读全文

posted @ 2017-07-31 18:55 天~宇~翱~翔阅读(898) 评论(0) 推荐(0)

开发常见错误之： IMP-00058: 遇到 ORACLE 错误 1691

摘要：IMP-00058: 遇到 Oracle 错误 1691ORA-01691: Lob 段YQPRO.SYS_LOB0000031467C00006$$无法通过128（在表空间YQPRO中）扩展这种情况是由于表空间容量不够引起的，需要扩大表空间就可以了方法1：给表空间增加数据文件 ALTER TA 阅读全文

posted @ 2017-07-31 14:01 天~宇~翱~翔阅读(2484) 评论(0) 推荐(0)

开发常见错误之：Missing artifact com.sun:tools:jar 1.7.0

摘要：Missing artifact com.sun:tools:jar 1.7.0 解决办法一：手动配置pom.xml，添加一个dependency如下：即可！如果办法不能解决，试用第二种方法。解决办法二：首先，查看错误列表windows->Show View->Problems,在有以上问阅读全文

posted @ 2017-07-30 10:38 天~宇~翱~翔阅读(9823) 评论(1) 推荐(0)

开发常见错误之： Detected both log4j-over-slf4j.jar AND slf4j-log4j12.jar

摘要：SLF4J: Detected both log4j-over-slf4j.jar AND slf4j-log4j12.jar on the class path, preempting StackOverflowError.SLF4J: See also http://www.slf4j.org/ 阅读全文

posted @ 2017-07-30 10:35 天~宇~翱~翔阅读(4176) 评论(0) 推荐(0)

kafka集群部署

摘要：1. zookeeper集群 zookeeper是一个为分布式应用提供一致性服务的软件，它是开源的Hadoop项目的一个子项目，并根据google发表的一篇论文来实现的。zookeeper为分布式系统提供了高笑且易于使用的协同服务，它可以为分布式应用提供相当多的服务，诸如统一命名服务，配置管理，状态阅读全文

posted @ 2017-07-29 09:27 天~宇~翱~翔阅读(422) 评论(0) 推荐(0)

kafka

摘要：1. 基本介绍 Kafka是linkedin用于日志处理的分布式消息队列，linkedin的日志数据容量大，但对可靠性要求不高，其日志数据主要包括用户行为（登录、浏览、点击、分享、喜欢）以及系统运行日志（CPU、内存、磁盘、网络、系统及进程状态 kafka的集群由多个Broker服务器组成，每个类型阅读全文

posted @ 2017-07-28 20:45 天~宇~翱~翔阅读(320) 评论(0) 推荐(0)

Oracle 学习之触发器

摘要：1. 触发器简介触发器是存储在数据库服务器中的程序单元，当一个表或一个视图被改变，或者数据库发生某些事件时，Oracle会自动触发触发器，并执行触发器中的代码。只有在触发器中定义的事件发生时，触发器才被触发。触发器是自动执行的代码块，和存储过程的区别在于，用户可以直接调用存储过程，而不能直接调用触阅读全文

posted @ 2017-07-27 18:43 天~宇~翱~翔阅读(523) 评论(0) 推荐(0)

oracle 表空间不足解决办法

摘要：Oracle表空间不足，一般有两个原因： 1. 原表空间太小，没有自增长； 2. 表空间已自增长，而且表空间也已足够大检查原因：【解决办法-原因一】只要将表空间设置为足够大，并设置为自增长即可。 1. 扩展表空间 alter database datafile 'D:\oracle\PRODU 阅读全文

posted @ 2017-07-20 09:01 天~宇~翱~翔阅读(1876) 评论(0) 推荐(0)

oracle IMP-00085: 为无界导出文件指定了多个输入文件

摘要：导入按表导出的数据的时候，提示为无界导出文件指定了多个输入文件命令如下： imp user/user@database file=e:\test.dmp 解决方法：在tables后面添加一个等号，如下： imp apde/1234@apde file=e:\apde103.dmp tables= 阅读全文

posted @ 2017-07-19 15:44 天~宇~翱~翔阅读(3702) 评论(0) 推荐(0)

CDH localhost:7180 页面无法打开

摘要：有时会遇到CDH集群的7180页面无法访问，通过命令查看服务发现：删除pid文件：然后启动服务cloudera-scm-server时会遇到过一段时间自己挂掉，并返回cloudera-scm-server dead but pid file exists的问题，主要是在cloudera-scm- 阅读全文

posted @ 2017-07-03 14:08 天~宇~翱~翔阅读(9546) 评论(0) 推荐(0)

Elasticsearch学习之深入搜索六 --- 平衡搜索结果的精准率和召回率

摘要：1. 召回率和精准度比如你搜索一个java spark，总共有100个doc，能返回多少个doc作为结果，就是召回率，recall 精准度，比如你搜索一个java spark，能不能尽可能让包含java spark，或者是java和spark离的很近的doc，排在最前面，precision 直接用阅读全文

posted @ 2017-07-03 10:26 天~宇~翱~翔阅读(1818) 评论(0) 推荐(1)

Elasticsearch学习之深入搜索五 --- phrase matching搜索技术

摘要：1. 近似匹配什么是近似匹配，两个句子 java is my favourite programming language, and I also think spark is a very good big data system.java spark are very related, bec 阅读全文

posted @ 2017-07-03 09:23 天~宇~翱~翔阅读(659) 评论(0) 推荐(0)

Elasticsearch学习之深入搜索四 --- cross-fields搜索

摘要：1. cross-fields搜索一个唯一标识，跨了多个field。比如一个人，标识，是姓名；一个建筑，它的标识是地址。姓名可以散落在多个field中，比如first_name和last_name中，地址可以散落在country，province，city中。跨多个field搜索一个标识，比如搜索阅读全文

posted @ 2017-07-01 16:58 天~宇~翱~翔阅读(721) 评论(0) 推荐(0)

Elasticsearch学习之深入搜索三 --- best fields策略

摘要：1. 为帖子数据增加content字段 POST /forum/article/_bulk { "update": { "_id": "1"} } { "doc" : {"content" : "i like to write best elasticsearch article"} } { "up 阅读全文

posted @ 2017-07-01 16:19 天~宇~翱~翔阅读(936) 评论(0) 推荐(0)

Elasticsearch学习之深入搜索二 --- 搜索底层原理剖析

摘要：1. 普通match如何转换为term+should { "match": { "title": "java elasticsearch"}} 使用诸如上面的match query进行多值搜索的时候，es会在底层自动将这个match query转换为bool的语法，bool should，指定多个搜阅读全文

posted @ 2017-07-01 14:46 天~宇~翱~翔阅读(1436) 评论(0) 推荐(0)

Elasticsearch学习之深入搜索一 --- 提高查询的精准度

摘要：1. 为帖子增加标题字段 POST /forum/article/_bulk { "update": { "_id": "1"} } { "doc" : {"title" : "this is java and elasticsearch blog"} } { "update": { "_id": 阅读全文

posted @ 2017-07-01 14:25 天~宇~翱~翔阅读(4954) 评论(1) 推荐(0)

Elasticsearch学习之深入聚合分析五---案例实战

摘要：1. fielddata核心原理 fielddata加载到内存的过程是lazy加载的，对一个analzyed field执行聚合时，才会加载，而且是field-level加载的,一个index的一个field，所有doc都会被加载，而不是少数doc,不是index-time创建，是query-tim 阅读全文

posted @ 2017-07-01 11:25 天~宇~翱~翔阅读(1096) 评论(0) 推荐(0)

Elasticsearch学习之深入聚合分析四---案例实战

摘要：1. 需求：比如有一个网站，记录下了每次请求的访问的耗时，需要统计tp50，tp90，tp99 tp50：50%的请求的耗时最长在多长时间tp90：90%的请求的耗时最长在多长时间tp99：99%的请求的耗时最长在多长时间 PUT /website { "mappings": { "logs": { 阅读全文

posted @ 2017-07-01 11:17 天~宇~翱~翔阅读(1917) 评论(0) 推荐(0)

Elasticsearch学习之深入聚合分析三---案例实战

摘要：1. 统计指定品牌下每个颜色的销量任何的聚合，都必须在搜索出来的结果数据中进行，搜索结果，就是聚合分析操作的scope 2. 单个品牌与所有品牌销量对比一个聚合操作，必须在query的搜索结果范围内执行出来两个结果，一个结果，是基于query搜索结果来聚合的; 一个结果，是对所有数据执行聚合的阅读全文

posted @ 2017-07-01 10:19 天~宇~翱~翔阅读(468) 评论(0) 推荐(0)

Elasticsearch学习之深入聚合分析二---案例实战

摘要：以一个家电卖场中的电视销售数据为背景，来对各种品牌，各种颜色的电视的销量和销售额，进行各种各样角度的分析，首先建立电视销售的索引，然后添加几条销售记录 PUT /tvs { "mappings": { "sales": { "properties": { "price": { "type": "l 阅读全文

posted @ 2017-07-01 09:46 天~宇~翱~翔阅读(683) 评论(0) 推荐(0)

Elasticsearch学习之深入聚合分析一---基本概念

摘要：首先明白两个核心概念：bucket和metric 1. bucket：一个数据分组基于city划分buckets，划分出来两个bucket，一个是北京bucket，一个是上海bucket 北京bucket：包含了2个人，小李，小王上海bucket：包含了3个人，小张，小丽，小陈按照某个字段进行b 阅读全文

posted @ 2017-07-01 08:47 天~宇~翱~翔阅读(397) 评论(0) 推荐(0)

笨小孩

07 2017 档案

公告