摘要:
一、理论研究 1.1 总览 Flume是一个分布式的可靠的日志收集系统,主要是用于从各种数据源收集、聚合并移动大批量的日志数据到存储系统;它本身具有许多故障转移和恢复机制,具有强大的容错能力;它使用下面这样一个简单的可扩展的数据流模型来进行在线分析。 1.2 核心概念 Event:一个FLume事件 阅读全文
摘要:
其实Rocketmq的给第三方的插件已经全了,如果大家有兴趣的话请移步https://github.com/apache/rocketmq-externals。本文主要是结合笔者已有的rmq在spark中的应用经验对rocketmq做简单介绍以及经验总结,当然免不了会将rocketmq和如今特别火爆 阅读全文
摘要:
写在前面(常规啰嗦) 拖拖拉拉新的一年已经过去一个月,今天3月6号。月底离职去平安,想来已经在这家公司呆了整整两年,对比两年前的我工程上确实大有长进,理论方面好像并没有得到很好的拓展,希望下一家能够得到比较好的历练。23岁,一个也算是比较尴尬的年纪,青春是很容易混过去的,尤其是工作以后,于是想继续深 阅读全文
摘要:
这段时间,开始学习Flink,并了解了Spark与Flink的区别,开始觉得Flink大有取代Spark的趋势啊,实时流始终目前是Spark的瓶颈呀,下面来一张对比图: 图片来源于:https://jobs.zalando.com/tech/blog/apache-showdown-flink-vs 阅读全文
摘要:
#Spark入门#这个系列课程,是综合于我从2017年3月分到今年7月份为止学习并使用Spark的使用心得感悟,暂定于每周更新,以后可能会上传讲课视频和PPT,目前先在博客园把稿子打好。注意:这只是一个草稿,里面关于知识的误解还请各大网友监督,我们互相进步。总而言之,网络上的知识学会断舍离,学会带着 阅读全文
摘要:
图论,顾名思义就是有图有论。 图:由点“Vertex”和边“Edge ”组成,且图分为有向图和无向图(本文讨论有向图),之前做毕业设计的时候研究“多谱流形聚类算法”的时候有研究“Graph”。高维数据的聚类就涉及到Graph Cut算法,想象数据为欧式空间的点,数据与数据之间呈现这样或那样的联系,数 阅读全文
摘要:
虽说,spark我也不陌生,之前一直用python跑的spark,基本的core和SQL操作用的也是比较熟练。但是这一切的基础都是在RDD上进行操作,即使是进行SQL操作也是将利用SpaekContext类中的textFile方法读取txt文件返回RDD对象,然后使用SQLContext实例化载利用 阅读全文
摘要:
怎么说,人总是有了压力才有动力。想来如今已经是2017年2月13日,2017年已经使用了43天,距离成绩出来还有3天。这个过年是最不充实的一个年,也是时间长达一个月久的“寒假”,因为“考研”。至于考到哪里也不再重要了,重要的是它在我心里已经是“失败”。但是这半年,从做完毕设的那一刻起我就决定考研,是 阅读全文
摘要:
感觉是有很久没有回到博客园,发现自己辛苦写的博客都被别人不加转载的复制粘贴过去真的心塞,不过乐观如我,说明做了一点点东西,不至于太蠢,能帮人最好。回校做毕设,专心研究多流形学习方法,生出了考研的决心。话不多说,看论文带大家走入Joshua B. Tenenbaum的Isomap的世界! 大数据时代的 阅读全文
摘要:
在java中解析xml有现成的包提供方法,常用的有四类:Dom,JDom,Sax以及Dom4j。其中前者是java中自带的,后三者需要大家从开源诸如sourceforge这样的网站下载jar包,然后在eclipse中“build path”加载外来的jar文件就行。各自的入门demo可以观看官网文档 阅读全文