主流大数据技术全体系参数与搭建与后台代码工程框架的编写(百分之70)
摘要:之前查阅源码啊,性能测试啊调优啊。。基本告一段落,项目也接近尾声,那么整理下spark所有配置参数与优化策略,方便以后开发与配置: Spark安装配置与代码框架 spark-default.conf 配置 spark.executor.instance 参数,向Yarn申请创建的资源池实例数 spa
阅读全文
posted @
2016-12-29 11:26
松伯
阅读(2045)
推荐(0) 编辑
大数据全体系年终总结
摘要:到年底了,想着总结下所有知识点好了~今年应用的知识点还是很多的~ Hadoop生态圈: 1、文件存储当然是选择Hadoop的分布式文件系统HDFS,当然因为硬件的告诉发展,已经出现了内存分布式系统Tachyon,不论是Hadoop的MapReduce,Spark的内存计算、hive的MapReudu
阅读全文
posted @
2016-12-11 15:54
松伯
阅读(3866)
推荐(0) 编辑
SparkStreaming(源码阅读十二)
摘要:要完整去学习spark源码是一件非常不容易的事情,但是咱可以积少成多嘛~那么,Spark Streaming是怎么搞的呢? 本质上,SparkStreaming接收实时输入数据流并将它们按批次划分,然后交给Spark引擎处理生成按照批次划分的结果流: SparkStreaming提供了表示连续数据流
阅读全文
posted @
2016-12-10 16:45
松伯
阅读(896)
推荐(0) 编辑
Netty的TCP粘包/拆包(源码二)
摘要:假设客户端分别发送了两个数据包D1和D2给服务器,由于服务器端一次读取到的字节数是不确定的,所以可能发生四种情况: 1、服务端分两次读取到了两个独立的数据包,分别是D1和D2,没有粘包和拆包。 2、服务端一次接收到了两个数据包,D1和D2粘合在一起,被称为TCP粘包。 3、服务端分两次读取到了两个数
阅读全文
posted @
2016-12-09 00:54
松伯
阅读(598)
推荐(0) 编辑
Spark Netty与Jetty (源码阅读十一)
摘要:spark呢,对Netty API又做了一层封装,那么Netty是什么呢~是个鬼。它基于NIO的服务端客户端框架,具体不再说了,下面开始。 创建了一个线程工厂,生成的线程都给定一个前缀名。 像一般的netty框架一样,创建Netty的EventLoopGroup: 在常用的netty框架中呢,会创建
阅读全文
posted @
2016-12-08 23:42
松伯
阅读(3016)
推荐(0) 编辑
Netty服务端与客户端(源码一)
摘要:首先,整理NIO进行服务端开发的步骤: (1)创建ServerSocketChannel,配置它为非阻塞模式。 (2)绑定监听,配置TCP参数,backlog的大小。 (3)创建一个独立的I/O线程,用于轮询多路复用器Selector。 (4)创建Selector,将之前创建的ServerSocke
阅读全文
posted @
2016-12-06 23:42
松伯
阅读(2133)
推荐(0) 编辑
NIO源码阅读
摘要:自己对着源码敲一遍练习,写上注释。发现NIO编程难度好高啊。。虽然很复杂,但是NIO编程的有点还是很多: 1、客户端发起的连接操作是异步的,可以通过在多路复用器注册OP_CONNECTION等待后续结果,不需要像BIO的客户端一样被同步阻塞。 2、SocketChannel的读写操作都是异步的,如果
阅读全文
posted @
2016-12-05 23:50
松伯
阅读(1404)
推荐(0) 编辑
决策树算法
摘要:一、算法概念 决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,
阅读全文
posted @
2016-12-04 16:20
松伯
阅读(1844)
推荐(0) 编辑