摘要:
在使用阿里云odps flume sink时 默认share数量是1,单个share的最大写入量为5000条每秒。 修改batch size 的数量必须小于share 5000 坑:如果配置batch size share 5000,则会出现数据丢失,并不给与任何报警信息 阅读全文
摘要:
log4j2 v2.6.1 配置自身kafka appender后会出现消息发送瓶颈,局域网内平均为1秒1000条,这个完全不满足当前的发送需求。 经排查发现 在每次调用发送后,会回调get meta信息造成性能瓶颈 解决办法,自定义appender,去掉send后的get方法。 阅读全文
摘要:
+ 解析文本(word pdf等): + http://blog.csdn.net/zwx19921215/article/details/24779371 + http://tika.apache.org/ + http://blog.csdn.net/an74520/article/detail 阅读全文
摘要:
CentOS7上elasticsearch5.0启动失败 问题描述: 最新版本5.0release了,想着装上试试,结果一上来就报了两个错,然后就退出了,如下: $ ./elasticsearch...ERROR: bootstrap checks failedmax file descriptor 阅读全文
摘要:
[原文 http://blog.csdn.net/sulei12341/article/details/52935271](http://blog.csdn.net/sulei12341/article/details/52935271) elasticsearch5.0版本由于刚出不久,并且与2. 阅读全文
摘要:
缺少bzip2包 yum install y bzip2 阅读全文
摘要:
症状描述 1、机器load增加从原来的不到1,疯狂增长到20+ 2、问题期间,磁盘容量正常、cpu正常、内存正常 解决办法 根据load问题,查找磁盘读写,使用iotop命令查看哪些进程磁盘读写异常 iotop命令参数 o:只显示有io操作的进程 b:批量显示,无交互,主要用作记录到文件。 n NU 阅读全文
摘要:
客户端pom.xml配置的kafka clients版本一定要与kafka版本一致,否则会报错 1) 错误一: Error reading field 'topic_metadata': Error reading array of size 1139567, only 45 bytes avail 阅读全文
摘要:
http://docs.hortonworks.com/HDPDocuments/Ambari 2.1.1.0/bk_ambari_reference_guide/content/ch_changing_the_jdk_version_on_an_existing_cluster.html Chap 阅读全文
摘要:
rm rf /usr/hdp/current/zookeeper client/conf ln s /etc/zookeeper/2.4.2.0 258/0/ /usr/hdp/current/zookeeper client/conf rm rf /usr/hdp/current/flume se 阅读全文
摘要:
zookeeper framework 之 Netflix curator(完美支持永久监听) ================ 介绍 curator是Netflix公司开源的zookeeper client library 官方地址: 详细介绍1: 详细介绍2: Curator主要解决了三类问题: 阅读全文
摘要:
kafka manager + 介绍 Kafka集群管理工具主要支持以下几个功能: 1、管理几个不同的集群; 2、很容易地检查集群的状态(topics, brokers, 副本的分布, 分区的分布); 3、选择副本; 4、产生分区分配(Generate partition assignments)基 阅读全文
摘要:
动机 为了做一个公共、统一、可以支持庞大数据量、实时的平台。 需要具备高吞吐量来支持庞大的事件流 可以处理积压数据,可以缓存数据,用来支持周期性从线下load进来的数据 系统为了处理更多的消息,不得不低延时提交数据 ??? 我们想让系统支持,分区、分布式、实时处理新增以及衍生的消息,因此设计了分区和 阅读全文
摘要:
最近一直在查apapche aurora相关资料发现除了官网和github基本没发现其他的资料。 官网用来安装apapche aurora的yum源失效,无法通过yum的方式安装apapche aurora,官网上又没发现其他的安装方式。 后再github上发现apapche aurora的打包工具 阅读全文
摘要:
安装服务 启动服务 出现问题 解决办法,添加安全 重新启动服务 检查是否正常启动 ifconfig 会多出一个ppp0的网络连接。 当前还是不能通过vpn访问的,因为当前所有的网络连接都通过默认网络连接,因此要增加一个route vpn工具:https://vpnso.com/main.php,用着 阅读全文
摘要:
hdfs的根目录属于hdfs用户,在supergroup组下; 因此在根目录新增data目录需要切换到hdfs用户下,在hdfs用户下执行新增命令; 然后修改data目录所属用户和所属组,修改权限命令如下 ps:cdh默认的hdfs用户无密码,直接 ,转入即可。 http://www.linuxid 阅读全文
摘要:
Host Monitor 提示/var/lib/cloudera host monitor/ts读写失败。 /var/lib/cloudera host monitor目录是Host Monitor服务动态生成的, 将/var/lib/cloudera host monitor删除,重启服务即可 阅读全文
摘要:
启动错误信息如下 问题应该是,虚拟断电造成的问题见错误。 CURRENT 文件在/var/lib/hadoop yarn/yarn nm recovery/yarn nm state目录序下, 这个文件是自动生成,将CURRENT 文件删除后,重启yarn服务即可。 阅读全文
摘要:
1、hive普通表 hive普通表将数据存储在hive.metastore.warehouse.dir设置的目录中,如果导入本地文件数据,数据会从本地导入到hdfs的目录中。 如果删除表,则将表和数据都删除掉 2、hive外部表 hive外部表则是使用hdfs其他目录的数据来创建,创建表时需要添加E 阅读全文
摘要:
docker 默认是将数据存储在/var/lib/docker下,因此当机器保存的镜像比较多,或者运行的镜像比较多时,会将系统存储占满(系统存储一般都只会分配很小的空间,仅保证系统运行),因此我们需要将docker的数据转移到数据磁盘上。 1、停止docker服务 2、将/var/lib/docke 阅读全文
摘要:
centos添加磁盘 原文: http://yingchao.iteye.com/blog/628097 先查看当前磁盘情况,使用fdisk l,查看当前有几块磁盘,磁盘分区是什么样子的,新的磁盘是空白的没有分区信息,在对照磁盘大小,找到新添加的磁盘 进入fdisk模式 fdisk <新添加的磁盘 阅读全文
摘要:
zookeeper服务部署数量 资料1: 资料2: zookeeper服务有一个特性,容忍度,当集群正常机器过半则表示服务可以使用,比如2 0 3 1,4 1,5 2。所以2n 1和2n的容忍度是一样的,都是n 1,所以没必要弄成2n台,多一台浪费 阅读全文
摘要:
实时人群计算——设想 目的 + 做到实时人群打标 技术 + spark streaming + 在前段创建一些判断条件,例如订单访问次数等,以此为依据创建人群。
+ spark streaming 周期从mysql拉取新创建的人群
+ 以batch进来的人为key,... 阅读全文
摘要:
docker容器多服务——Supervisor 参考文档: docker本身是不建议一个容器中运行多个服务的,但如果有需要的可以通过linux服务来实现,例如:Supervisor,supervisor本身是linux下一个进程管理工具,通过配置文件可以实现启动服务,并且中断后... 阅读全文
摘要:
DMP职能 DMP(Data Management Platform)数据管理平台,是把分散的第一、第三方数据进行整合纳入统一的技术平台,并对这些数据进行标准化和细分,让用户可以把这些细分结果推向现有的互动营销环境里。 DMP的核心元素包括: + 数据整合及标准化能力:采用统一化... 阅读全文
摘要:
目的 + 产出定制条件的总数量
+ 产出当前条件的人在其他标签维度的分布情况
+ 产出满足当前条件的人,并添加标记 创建任务 + 创建原子任务 + 原子任务间进行逻辑交并补 + 存储进任务DB 执行任务 + 解析任务 + 周期扫描DB获取任务 + 解析原子任务,将... 阅读全文
摘要:
原文链接: 已知默认启动容器内服务有两种方式
1、在启动容器的时候,后面跟上需要执行的脚本,例如: , ps: 为镜像内的脚本。
2、使用docker file 创建一个Dockerfile,内容如下 ... 阅读全文
摘要:
原文地址: 问题 docker固定容器ip前提是设置net为none,此情景下所有的网络配置都失效,包括 p端口映射。 目的 使用其他的方法做端口映射,绕过net为none 方法 docker的端口映射并不是在docker技术中实现的,而是通过宿主机的iptables来实现... 阅读全文
摘要:
原文地址: 症状描述 + 本机连接mysql速度很快
+ 远程ping mysql主机速度正常
+ 远程连接mysql速度需要等待30秒左右 (问题所在) + 远程连接后访问mysql中的表正常 原因是mysql主机不能访问广域网,连接DNS时连接不上,因此连接的时候会有延时。... 阅读全文
摘要:
docker hadoop + docker入门实践 + docker安装hadoop + 入门:http://udn.yyuap.com/doc/docker_practice/image/save_load.html docker 网络 pipework + Pipewo... 阅读全文
摘要:
docker可以做以下事情 + 隔离应用依赖
+ 创建应用镜像并进行复制
+ 创建容易分发的即启即用的应用
+ 允许实例简单快速的扩展
+ 测试应用并随后销毁他们 docker组成 镜像 + 镜像类似虚拟机的快照
+ 镜像大都通过其他镜像生成
+ 镜像拥有唯一ID
+ 具有可... 阅读全文
摘要:
准备机器 + 从已有的linux虚拟机中复制一个,注意重新生成网卡
+ 修改机器ip: + 修改hostname: + 删除系统的网卡信息: + 重启系统: + 创建docker用户: + 为docker用户创建密码: + 添加docker到sudoers: 安装dock... 阅读全文
摘要:
<p 1、在linux kernel layer 上可以构造N个userSpace;</p <p 2、程序运行的时候只是关注userspace</p <p 3、依靠多进程的方式实现分布式,每个进程作为一台机器,对于应用程序来说是完全透明的。</p <p 4、</p <table border="0"... 阅读全文
摘要:
1、spark: one stack to rule them all一个堆栈解决所有的计算问题2、大数据第一个问题,如何存储,HDFS已经完美解决了。3、资源管理就是yarn,mesource4、大数据如何计算。MR将被Spark取代。batch计算实时流计算 spark streaming交互式... 阅读全文
摘要:
前提storageLevel != null读源码查看先看ietrator,查看storageLevel看sparkEnv.getMemoryManger,通过block manager来操作具体的storage,a list of partitions;RDD获取缓存实质上通过block mana... 阅读全文
摘要:
sparkEnv是spark环境变量1、可以从其中get 缓存2、为master workder driver 管理和保存运行时对象。3、excutorid ,excutor 一种为driver类型,一种具体处理task 内部有线程池的excutor4、actorSystem ,如果运行在drive... 阅读全文
摘要:
spark 每次提交一个作业,都会划分成不同的stage,除了最后一个stage(shuffle map task),前边的stage属于一种类型(result task)。spark中的job,内部是由具体task构成,由于spark的调度模式根据宽依赖的模式划分成不同的stage,而我们从spa... 阅读全文
摘要:
hadoop RDD 把hdfs的block转换为split 的逻辑映射mapPartitioned RDD 从split中转换,与hadoop RDD 一一映射textFileflatMap 也是mapPartitioned RDDmapreduceByKey会将前期的窄依赖部分合并作为一个sta... 阅读全文
摘要:
窄依赖 narrow dependencymap,filter,union ,join(co-partitioned)制定了父RDD中的分片具体交给哪个唯一的子RDD并行的,RDD分片是独立的。只依赖相同ID的分片range分片one to dependencyrange dependency内部可... 阅读全文
摘要:
DAG图(RDD 依赖关系图,有向图,无环图)shuffledRDD为宽依赖在spark shell的页面上查看具体的job执行情况我们实际操作save》》》 val cache = sc.textFile("hdfs://hadoop-1:9000/data/test/test.dat").fla... 阅读全文