随笔分类 - 大数据
摘要:1.创建拓扑,配置KafkaSpout、Bolt KafkaTopologyBasic.java: PrinterBolt.java: SentenceBolt.java 2.pom.xml设置 1)设置利用maven-assembly-plugin生成jar包方式 2)依赖包添加 注意storm-
阅读全文
摘要:Storm提交Topology运行方式分为本地和集群运行两种,其中集群运行需要将程序打包并把jar包复制到集群,通过以下方式执行: 不过有时程序运行报错提示如下: 出现问题原因是storm-core下面也存在一个defaults.yaml文件,因此storm运行时报错冲突,因此修改Maven配置文件
阅读全文
摘要:0.时序数据库 时间序列(Time Series):是一组按照时间发生先后顺序进行排列的数据点序列,通常一组时间序列的时间间隔为一恒定值(如1秒,5分钟,1小时等)。 时间序列数据可被简称为时序数据。实时监控系统所收集的监控指标数据,通常就是时序数据 。时序数据具有如下特点: 每一个时间序列通常为某
阅读全文
摘要:1.问题描述 OpenTSDB执行./tsdb tsd启动之后,占有控制台执行并且Ctrl+C后就退出了,关闭控制台同样会退出。 2.解决方法(在/opt/module/opentsdb-2.3.1/build/目录下) 其中: nohup : 不挂断运行 ./tsdb tsd > /dev/nul
阅读全文
摘要:1.问题: 群起脚本启动后查看jps没有出现:QuorumPeerMain Zookeeper正常启动但是群起脚本查状态出现:Error contacting service. It is probably not running错误 2.原因: 脚本没有加上source /etc/profile;
阅读全文
摘要:参考:http://www.raincent.com/content-85-11052-1.html 1、Application:Spark应用程序 指的是用户编写的Spark应用程序,包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码。 Spark应用程序,由一个或多个作
阅读全文
摘要:1. 集群角色 Application:基于spark的用户程序,包含了一个Driver program 和集群中多个Executor Driver Program:运行application的main()函数并自动创建SparkContext。Driver program通过一个SparkCont
阅读全文
摘要:1.CM(Cloudera Manager)介绍 1.1 简介 Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具,使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。 对比Apache / CDH /
阅读全文
摘要:参考博客:做了五年大数据开发工程师总结的的大数据学习路线 大数据的4V特征: 常见的大数据的开源框架: 第一章:初识Hadoop 1.1 学会百度与Google 不论遇到什么问题,先试试搜索并自己解决。Google首选,翻不过去的,就用百度吧。 1.2 参考资料首选官方文档 特别是对于入门来说,官方
阅读全文