wing1995

2019年12月17日

摘要：一、理论研究 1.1 总览 Flume是一个分布式的可靠的日志收集系统，主要是用于从各种数据源收集、聚合并移动大批量的日志数据到存储系统；它本身具有许多故障转移和恢复机制，具有强大的容错能力；它使用下面这样一个简单的可扩展的数据流模型来进行在线分析。 1.2 核心概念 Event：一个FLume事件阅读全文

posted @ 2019-12-17 17:49 wing1995 阅读(629) 评论(0) 推荐(3)

2019年12月10日

RocketMq在SparkStreaming中的应用总结

摘要：其实Rocketmq的给第三方的插件已经全了，如果大家有兴趣的话请移步https://github.com/apache/rocketmq-externals。本文主要是结合笔者已有的rmq在spark中的应用经验对rocketmq做简单介绍以及经验总结，当然免不了会将rocketmq和如今特别火爆阅读全文

posted @ 2019-12-10 21:51 wing1995 阅读(2641) 评论(0) 推荐(0)

2019年3月7日

数据实践过程中理论总结

摘要：写在前面（常规啰嗦）拖拖拉拉新的一年已经过去一个月，今天3月6号。月底离职去平安，想来已经在这家公司呆了整整两年，对比两年前的我工程上确实大有长进，理论方面好像并没有得到很好的拓展，希望下一家能够得到比较好的历练。23岁，一个也算是比较尴尬的年纪，青春是很容易混过去的，尤其是工作以后，于是想继续深阅读全文

posted @ 2019-03-07 14:56 wing1995 阅读(686) 评论(0) 推荐(0)

2019年1月24日

flink-vs.-spark

摘要：这段时间，开始学习Flink，并了解了Spark与Flink的区别，开始觉得Flink大有取代Spark的趋势啊，实时流始终目前是Spark的瓶颈呀，下面来一张对比图：图片来源于：https://jobs.zalando.com/tech/blog/apache-showdown-flink-vs 阅读全文

posted @ 2019-01-24 19:26 wing1995 阅读(535) 评论(0) 推荐(0)

2018年7月19日

Spark入门——什么是Hadoop，为什么是Spark?

摘要： #Spark入门#这个系列课程，是综合于我从2017年3月分到今年7月份为止学习并使用Spark的使用心得感悟，暂定于每周更新，以后可能会上传讲课视频和PPT，目前先在博客园把稿子打好。注意：这只是一个草稿，里面关于知识的误解还请各大网友监督，我们互相进步。总而言之，网络上的知识学会断舍离，学会带着阅读全文

posted @ 2018-07-19 15:08 wing1995 阅读(50128) 评论(11) 推荐(9)

2017年7月8日

图论基础之Dijkstra算法的初探

摘要：图论，顾名思义就是有图有论。图：由点“Vertex”和边“Edge ”组成，且图分为有向图和无向图(本文讨论有向图)，之前做毕业设计的时候研究“多谱流形聚类算法”的时候有研究“Graph”。高维数据的聚类就涉及到Graph Cut算法，想象数据为欧式空间的点，数据与数据之间呈现这样或那样的联系，数阅读全文

posted @ 2017-07-08 18:10 wing1995 阅读(2419) 评论(3) 推荐(0)

2017年5月3日

spark2.0系列《一》—— RDD VS. DataFrame VS. DataSet

摘要：虽说，spark我也不陌生，之前一直用python跑的spark，基本的core和SQL操作用的也是比较熟练。但是这一切的基础都是在RDD上进行操作，即使是进行SQL操作也是将利用SpaekContext类中的textFile方法读取txt文件返回RDD对象，然后使用SQLContext实例化载利用阅读全文

posted @ 2017-05-03 20:01 wing1995 阅读(2100) 评论(0) 推荐(0)

2017年2月13日

the first blog in 2017——《论作为程序员的我考研》

摘要：怎么说，人总是有了压力才有动力。想来如今已经是2017年2月13日，2017年已经使用了43天，距离成绩出来还有3天。这个过年是最不充实的一个年，也是时间长达一个月久的“寒假”，因为“考研”。至于考到哪里也不再重要了，重要的是它在我心里已经是“失败”。但是这半年，从做完毕设的那一刻起我就决定考研，是阅读全文

posted @ 2017-02-13 12:49 wing1995 阅读(630) 评论(3) 推荐(1)

2016年5月10日

流形学习之等距特征映射（Isomap）

摘要：感觉是有很久没有回到博客园，发现自己辛苦写的博客都被别人不加转载的复制粘贴过去真的心塞，不过乐观如我，说明做了一点点东西，不至于太蠢，能帮人最好。回校做毕设，专心研究多流形学习方法，生出了考研的决心。话不多说，看论文带大家走入Joshua B. Tenenbaum的Isomap的世界！大数据时代的阅读全文

posted @ 2016-05-10 20:01 wing1995 阅读(27314) 评论(9) 推荐(3)

2016年3月11日

java实战之解析xml

摘要：在java中解析xml有现成的包提供方法，常用的有四类：Dom，JDom，Sax以及Dom4j。其中前者是java中自带的，后三者需要大家从开源诸如sourceforge这样的网站下载jar包，然后在eclipse中“build path”加载外来的jar文件就行。各自的入门demo可以观看官网文档阅读全文

posted @ 2016-03-11 15:11 wing1995 阅读(1225) 评论(0) 推荐(0)

公告