逸新 - 博客园

2017年9月12日

摘要：在使用阿里云odps flume sink时默认share数量是1，单个share的最大写入量为5000条每秒。修改batch size 的数量必须小于share 5000 坑：如果配置batch size share 5000,则会出现数据丢失，并不给与任何报警信息阅读全文

posted @ 2017-09-12 16:05 逸新阅读(1142) 评论(0) 推荐(0) 编辑

2017年9月11日

log4j2 kafka 性能瓶颈问题

摘要： log4j2 v2.6.1 配置自身kafka appender后会出现消息发送瓶颈，局域网内平均为1秒1000条，这个完全不满足当前的发送需求。经排查发现在每次调用发送后，会回调get meta信息造成性能瓶颈解决办法，自定义appender，去掉send后的get方法。阅读全文

posted @ 2017-09-11 15:36 逸新阅读(3284) 评论(0) 推荐(0) 编辑

2017年3月15日

elasticsearch全文检索资料

摘要： + 解析文本（word pdf等）： + http://blog.csdn.net/zwx19921215/article/details/24779371 + http://tika.apache.org/ + http://blog.csdn.net/an74520/article/detail 阅读全文

posted @ 2017-03-15 18:24 逸新阅读(175) 评论(0) 推荐(0) 编辑

2017年2月26日

CentOS7上elasticsearch5.0启动失败

摘要： CentOS7上elasticsearch5.0启动失败问题描述：最新版本5.0release了，想着装上试试，结果一上来就报了两个错，然后就退出了，如下： $ ./elasticsearch...ERROR: bootstrap checks failedmax file descriptor 阅读全文

posted @ 2017-02-26 20:26 逸新阅读(703) 评论(0) 推荐(0) 编辑

elasticsearch5.0版本的head安装

摘要： [原文 http://blog.csdn.net/sulei12341/article/details/52935271]（http://blog.csdn.net/sulei12341/article/details/52935271） elasticsearch5.0版本由于刚出不久，并且与2. 阅读全文

posted @ 2017-02-26 20:25 逸新阅读(214) 评论(0) 推荐(0) 编辑

tar: bzip2：无法 exec: 没有那个文件或目录

摘要：缺少bzip2包 yum install y bzip2 阅读全文

posted @ 2017-02-26 19:31 逸新阅读(16049) 评论(0) 推荐(2) 编辑

2016年12月23日

记录~采集机器出现load异常

摘要：症状描述 1、机器load增加从原来的不到1，疯狂增长到20+ 2、问题期间，磁盘容量正常、cpu正常、内存正常解决办法根据load问题，查找磁盘读写，使用iotop命令查看哪些进程磁盘读写异常 iotop命令参数 o：只显示有io操作的进程 b：批量显示，无交互，主要用作记录到文件。 n NU 阅读全文

posted @ 2016-12-23 22:21 逸新阅读(390) 评论(0) 推荐(0) 编辑

2016年11月28日

kafka异常

摘要：客户端pom.xml配置的kafka clients版本一定要与kafka版本一致，否则会报错 1) 错误一： Error reading field 'topic_metadata': Error reading array of size 1139567, only 45 bytes avail 阅读全文

posted @ 2016-11-28 20:04 逸新阅读(5322) 评论(1) 推荐(0) 编辑

2016年11月14日

修改已存在HDP JDK版本

摘要： http://docs.hortonworks.com/HDPDocuments/Ambari 2.1.1.0/bk_ambari_reference_guide/content/ch_changing_the_jdk_version_on_an_existing_cluster.html Chap 阅读全文

posted @ 2016-11-14 22:50 逸新阅读(1152) 评论(0) 推荐(0) 编辑

安装 hdp conf 配置不存在

摘要： rm rf /usr/hdp/current/zookeeper client/conf ln s /etc/zookeeper/2.4.2.0 258/0/ /usr/hdp/current/zookeeper client/conf rm rf /usr/hdp/current/flume se 阅读全文

posted @ 2016-11-14 11:18 逸新阅读(540) 评论(0) 推荐(0) 编辑

2016年6月1日

zookeeper framework 之 Netflix curator

摘要： zookeeper framework 之 Netflix curator（完美支持永久监听） ================ 介绍 curator是Netflix公司开源的zookeeper client library 官方地址：详细介绍1：详细介绍2： Curator主要解决了三类问题: 阅读全文

posted @ 2016-06-01 19:13 逸新阅读(2120) 评论(0) 推荐(0) 编辑

2016年5月30日

kafka-manager

摘要： kafka manager + 介绍 Kafka集群管理工具主要支持以下几个功能： 1、管理几个不同的集群； 2、很容易地检查集群的状态(topics, brokers, 副本的分布, 分区的分布)； 3、选择副本； 4、产生分区分配(Generate partition assignments)基阅读全文

posted @ 2016-05-30 21:14 逸新阅读(420) 评论(0) 推荐(0) 编辑

2016年5月4日

kafka设计思想

摘要：动机为了做一个公共、统一、可以支持庞大数据量、实时的平台。需要具备高吞吐量来支持庞大的事件流可以处理积压数据，可以缓存数据，用来支持周期性从线下load进来的数据系统为了处理更多的消息，不得不低延时提交数据 ??? 我们想让系统支持，分区、分布式、实时处理新增以及衍生的消息，因此设计了分区和阅读全文

posted @ 2016-05-04 20:27 逸新阅读(446) 评论(0) 推荐(0) 编辑

2016年3月7日

关于apapche aurora rpm包

摘要：最近一直在查apapche aurora相关资料发现除了官网和github基本没发现其他的资料。官网用来安装apapche aurora的yum源失效，无法通过yum的方式安装apapche aurora，官网上又没发现其他的安装方式。后再github上发现apapche aurora的打包工具阅读全文

posted @ 2016-03-07 22:29 逸新阅读(520) 评论(0) 推荐(0) 编辑

centos pptp client 配置

摘要：安装服务启动服务出现问题解决办法，添加安全重新启动服务检查是否正常启动 ifconfig 会多出一个ppp0的网络连接。当前还是不能通过vpn访问的，因为当前所有的网络连接都通过默认网络连接，因此要增加一个route vpn工具：https://vpnso.com/main.php，用着阅读全文

posted @ 2016-03-07 21:27 逸新阅读(783) 评论(0) 推荐(1) 编辑

2016年2月27日

hadoop hdfs 权限修改

摘要： hdfs的根目录属于hdfs用户，在supergroup组下；因此在根目录新增data目录需要切换到hdfs用户下，在hdfs用户下执行新增命令；然后修改data目录所属用户和所属组，修改权限命令如下 ps：cdh默认的hdfs用户无密码，直接，转入即可。 http://www.linuxid 阅读全文

posted @ 2016-02-27 22:17 逸新阅读(9515) 评论(0) 推荐(0) 编辑

cdh Host Monitor 启动失败

摘要： Host Monitor 提示/var/lib/cloudera host monitor/ts读写失败。 /var/lib/cloudera host monitor目录是Host Monitor服务动态生成的，将/var/lib/cloudera host monitor删除，重启服务即可阅读全文

posted @ 2016-02-27 17:15 逸新阅读(4629) 评论(0) 推荐(0) 编辑

cdh yarn 启动失败

摘要：启动错误信息如下问题应该是，虚拟断电造成的问题见错误。 CURRENT 文件在/var/lib/hadoop yarn/yarn nm recovery/yarn nm state目录序下，这个文件是自动生成，将CURRENT 文件删除后，重启yarn服务即可。阅读全文

posted @ 2016-02-27 17:12 逸新阅读(3128) 评论(1) 推荐(0) 编辑

2016年2月23日

hive 存储

摘要： 1、hive普通表 hive普通表将数据存储在hive.metastore.warehouse.dir设置的目录中，如果导入本地文件数据，数据会从本地导入到hdfs的目录中。如果删除表，则将表和数据都删除掉 2、hive外部表 hive外部表则是使用hdfs其他目录的数据来创建，创建表时需要添加E 阅读全文

posted @ 2016-02-23 11:09 逸新阅读(226) 评论(0) 推荐(0) 编辑

2016年2月17日

docker修改默认存储位置

摘要： docker 默认是将数据存储在/var/lib/docker下，因此当机器保存的镜像比较多，或者运行的镜像比较多时，会将系统存储占满（系统存储一般都只会分配很小的空间，仅保证系统运行），因此我们需要将docker的数据转移到数据磁盘上。 1、停止docker服务 2、将/var/lib/docke 阅读全文

posted @ 2016-02-17 11:03 逸新阅读(449) 评论(0) 推荐(0) 编辑

2016年2月16日

centos新增磁盘

摘要： centos添加磁盘原文： http://yingchao.iteye.com/blog/628097 先查看当前磁盘情况，使用fdisk l，查看当前有几块磁盘，磁盘分区是什么样子的，新的磁盘是空白的没有分区信息，在对照磁盘大小，找到新添加的磁盘进入fdisk模式 fdisk <新添加的磁盘阅读全文

posted @ 2016-02-16 16:30 逸新阅读(214) 评论(0) 推荐(0) 编辑

2016年1月28日

zookeeper服务部署数量

摘要： zookeeper服务部署数量资料1：资料2： zookeeper服务有一个特性，容忍度，当集群正常机器过半则表示服务可以使用，比如2 0 3 1,4 1,5 2。所以2n 1和2n的容忍度是一样的，都是n 1，所以没必要弄成2n台，多一台浪费阅读全文

posted @ 2016-01-28 10:54 逸新阅读(437) 评论(0) 推荐(0) 编辑

2016年1月19日

实时人群计算——设想

摘要：实时人群计算——设想目的 + 做到实时人群打标技术 + spark streaming + 在前段创建一些判断条件，例如订单访问次数等，以此为依据创建人群。 + spark streaming 周期从mysql拉取新创建的人群 + 以batch进来的人为key，... 阅读全文

posted @ 2016-01-19 18:36 逸新阅读(505) 评论(0) 推荐(0) 编辑

docker容器多服务——Supervisor

摘要： docker容器多服务——Supervisor 参考文档： docker本身是不建议一个容器中运行多个服务的，但如果有需要的可以通过linux服务来实现，例如：Supervisor，supervisor本身是linux下一个进程管理工具，通过配置文件可以实现启动服务，并且中断后... 阅读全文

posted @ 2016-01-19 17:11 逸新阅读(8787) 评论(0) 推荐(0) 编辑

DMP职能

摘要： DMP职能 DMP(Data Management Platform)数据管理平台，是把分散的第一、第三方数据进行整合纳入统一的技术平台，并对这些数据进行标准化和细分，让用户可以把这些细分结果推向现有的互动营销环境里。 DMP的核心元素包括： + 数据整合及标准化能力：采用统一化... 阅读全文

posted @ 2016-01-19 16:06 逸新阅读(407) 评论(0) 推荐(0) 编辑

2016年1月18日

人群任务处理流程

摘要：目的 + 产出定制条件的总数量 + 产出当前条件的人在其他标签维度的分布情况 + 产出满足当前条件的人，并添加标记创建任务 + 创建原子任务 + 原子任务间进行逻辑交并补 + 存储进任务DB 执行任务 + 解析任务 + 周期扫描DB获取任务 + 解析原子任务，将... 阅读全文

posted @ 2016-01-18 18:49 逸新阅读(455) 评论(0) 推荐(0) 编辑

dockerfile——docker容器，服务自启动

摘要：原文链接：已知默认启动容器内服务有两种方式 1、在启动容器的时候，后面跟上需要执行的脚本，例如： , ps: 为镜像内的脚本。 2、使用docker file 创建一个Dockerfile，内容如下 ... 阅读全文

posted @ 2016-01-18 11:20 逸新阅读(12742) 评论(0) 推荐(1) 编辑

2016年1月15日

docker容器端口映射解析

摘要：原文地址：问题 docker固定容器ip前提是设置net为none，此情景下所有的网络配置都失效，包括 p端口映射。目的使用其他的方法做端口映射，绕过net为none 方法 docker的端口映射并不是在docker技术中实现的，而是通过宿主机的iptables来实现... 阅读全文

posted @ 2016-01-15 16:37 逸新阅读(7605) 评论(0) 推荐(1) 编辑

mysql连接慢的问题——dns惹的祸

摘要：原文地址: 症状描述 + 本机连接mysql速度很快 + 远程ping mysql主机速度正常 + 远程连接mysql速度需要等待30秒左右（问题所在） + 远程连接后访问mysql中的表正常原因是mysql主机不能访问广域网，连接DNS时连接不上，因此连接的时候会有延时。... 阅读全文

posted @ 2016-01-15 16:05 逸新阅读(3091) 评论(0) 推荐(0) 编辑

2016年1月9日

docker入门与hadoop

摘要： docker hadoop + docker入门实践 + docker安装hadoop + 入门：http://udn.yyuap.com/doc/docker_practice/image/save_load.html docker 网络 pipework + Pipewo... 阅读全文

posted @ 2016-01-09 00:19 逸新阅读(804) 评论(0) 推荐(0) 编辑

2016年1月7日

docker 学习笔记简介

摘要： docker可以做以下事情 + 隔离应用依赖 + 创建应用镜像并进行复制 + 创建容易分发的即启即用的应用 + 允许实例简单快速的扩展 + 测试应用并随后销毁他们 docker组成镜像 + 镜像类似虚拟机的快照 + 镜像大都通过其他镜像生成 + 镜像拥有唯一ID + 具有可... 阅读全文

posted @ 2016-01-07 14:54 逸新阅读(159) 评论(0) 推荐(0) 编辑

2016年1月4日

docker 安装笔记

摘要：准备机器 + 从已有的linux虚拟机中复制一个，注意重新生成网卡 + 修改机器ip： + 修改hostname： + 删除系统的网卡信息： + 重启系统： + 创建docker用户： + 为docker用户创建密码： + 添加docker到sudoers：安装dock... 阅读全文

posted @ 2016-01-04 15:30 逸新阅读(351) 评论(0) 推荐(0) 编辑

2016年1月3日

docker --（视频笔记1）

摘要： <p 1、在linux kernel layer 上可以构造N个userSpace；</p <p 2、程序运行的时候只是关注userspace</p <p 3、依靠多进程的方式实现分布式，每个进程作为一台机器，对于应用程序来说是完全透明的。</p <p 4、</p <table border="0"... 阅读全文

posted @ 2016-01-03 18:09 逸新阅读(271) 评论(0) 推荐(0) 编辑

2016年1月2日

spark streaming -- （视频笔记）

摘要： 1、spark: one stack to rule them all一个堆栈解决所有的计算问题2、大数据第一个问题，如何存储，HDFS已经完美解决了。3、资源管理就是yarn，mesource4、大数据如何计算。MR将被Spark取代。batch计算实时流计算 spark streaming交互式... 阅读全文

posted @ 2016-01-02 22:26 逸新阅读(565) 评论(0) 推荐(0) 编辑

2015年12月30日

RDD的iterator中的缓存处理内幕 -- （视频笔记）

摘要：前提storageLevel != null读源码查看先看ietrator，查看storageLevel看sparkEnv.getMemoryManger，通过block manager来操作具体的storage，a list of partitions；RDD获取缓存实质上通过block mana... 阅读全文

posted @ 2015-12-30 11:15 逸新阅读(315) 评论(0) 推荐(0) 编辑

2015年12月29日

spark RDD iterator中sparkEnv功能 -- （视频笔记）

摘要： sparkEnv是spark环境变量1、可以从其中get 缓存2、为master workder driver 管理和保存运行时对象。3、excutorid ，excutor 一种为driver类型，一种具体处理task 内部有线程池的excutor4、actorSystem ，如果运行在drive... 阅读全文

posted @ 2015-12-29 17:35 逸新阅读(1060) 评论(0) 推荐(0) 编辑

两种类型的Spark RDD task解析以及iterator解析 -- （视频笔记）

摘要： spark 每次提交一个作业，都会划分成不同的stage，除了最后一个stage（shuffle map task），前边的stage属于一种类型（result task）。spark中的job，内部是由具体task构成，由于spark的调度模式根据宽依赖的模式划分成不同的stage，而我们从spa... 阅读全文

posted @ 2015-12-29 16:19 逸新阅读(1082) 评论(0) 推荐(0) 编辑

s通过案例彻底详解spark中DAG的逻辑视图的产生机制和过程 -- （视频笔记）（重点）

摘要： hadoop RDD 把hdfs的block转换为split 的逻辑映射mapPartitioned RDD 从split中转换，与hadoop RDD 一一映射textFileflatMap 也是mapPartitioned RDDmapreduceByKey会将前期的窄依赖部分合并作为一个sta... 阅读全文

posted @ 2015-12-29 15:50 逸新阅读(892) 评论(0) 推荐(0) 编辑

Spark RDD 的宽依赖和窄依赖 -- （视频笔记）

摘要：窄依赖 narrow dependencymap,filter,union ,join(co-partitioned)制定了父RDD中的分片具体交给哪个唯一的子RDD并行的，RDD分片是独立的。只依赖相同ID的分片range分片one to dependencyrange dependency内部可... 阅读全文

posted @ 2015-12-29 15:31 逸新阅读(4978) 评论(0) 推荐(0) 编辑

通过wordCount实战详解Spark RDD创建 -- （视频笔记）

摘要： DAG图（RDD 依赖关系图，有向图，无环图）shuffledRDD为宽依赖在spark shell的页面上查看具体的job执行情况我们实际操作save》》》 val cache = sc.textFile("hdfs://hadoop-1:9000/data/test/test.dat").fla... 阅读全文

posted @ 2015-12-29 15:11 逸新阅读(671) 评论(0) 推荐(0) 编辑

逸新

公告