2014 BDTC 參会有感
中国大数据技术大会(Big Data Technology Conference,BDTC)是眼下国内最具影响、规模最大的大数据领域的技术盛会。
大会的前身是Hadoop中国云计算大会(Hadoop in China,HiC)。从2008年仅60人參加的技术沙龙到当下的数千人技术盛宴,作为业内极具实战价值的专业交流平台,已经成功举办七届的中国大数据技术大会忠实地描绘了大数据领域内的技术热点,沉淀了行业实战经验,见证了整个大数据生态圈技术的发展与演变。
为了迎接大数据时代的到来,更好地交流大数据的实践经验,进一步推进大数据技术创新与应用,展示国内外大数据领域的最新科研成果。2014年12月12-14日。由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所与CSDN共同协办的2014中国大数据技术大会(Big Data Technology Conference 2014。BDTC 2014)将在北京新云南皇冠假日酒店隆重举办。
大会官网:http://bdtc2014.hadooper.cn/m/zone/bdtc_2014
因为我家在上海,没想到要去。一来是近期非常忙,有非常多事情要做;二来还是比較折腾的,想着看视频回放吧;三来比較贵,此去一行要花费近5K大洋。
可是后来CSDN送票;还有人帮忙报销路费;住宿也不是问题。毕竟三个姐姐都在北京。因此成行。
首先感谢CSDN,不单单是因为送我票,CSDN也是本次大会的协办单位。在会场看到了非常多的CSDN的小伙伴,非常辛苦。
先说几个最大的感受:
1. 会议组织的非常好;不单是Speaker准备的非常好,部分的内容非常有深度;硬件也不错,比方同声传译。
2. 參会人员非常多,遇到了非常多熟悉的面孔,当中不乏从上海,杭州赶过去的。并且目測有一些我厂小伙伴(通过我厂背包)。
3. 展台非常多。
能够从各个创业公司的海报看到他们的产品,从产品能够看出行业一些主要的需求点和大家的关注点。
4. 见到了Doug Cutting 大神。尽管想去签名+拍照。可是为了保持自己的矜持就没有挤上去。
5. Spark的确是大家的关注点,非常多Speaker不时的会提到Spark,甚至做超机的高光荣教授 教授。
6. 大家一致觉得大数据刚刚落地,甚至有嘉宾激进的觉得如今和80年代PC刚起步一样。如今大数据所面临的问题比方计算存储网络资源在不久的将来将不复存在(问题是不断演进的吧,比方是否可能会有计算模型定义的硬件,即computing defined hardware。呵呵)
7. 干货非常多。节奏非常快,基本上没有QA的环节。
因为周日的技术论坛分了大数据生态系统,大数据技术,大数据应用和大数据基础设施等4个分论坛。并且时间是全然重叠的,因此仅仅能选择自己感兴趣的去听。接下来分享一下印象比較深的几场。
先分享第一个:
2015年大数据基础技术的演进趋势:孙元浩 星环科技CTO
四个趋势:
1. 混合架构将逐渐消失
2. 固态盘将替代内存作为缓存
3. 实时大数据技术得到广泛关注
4. 云计算和大数据最终能够融合
对于第一个趋势,我觉得在小公司是能够的,毕竟维护多个架构的运维成本。集群成本都非常高。
假设一个架构能够满足大家需求,那么将计算资源整合到一块为整个公司服务绝对符合公司的利益。
可是对于BAT这样的超大的公司,可能根本就不会存在一个通用的架构。
非常多地方的运算都会苛刻,比方延时。比方吞吐。为不同的应用场景搭建不同的架构,BAT不单是由技术人员去实现。运维人员去运维。并且还有应用场景的强需求。可能离线和近线使用统一的架构在理论上是可能的;可是在线部分至少在如今。还没有看到这个趋势。
第二个趋势,还是非常有可能的。毕竟假设为一个计算场景设计一个特殊的文件格式,那么SSD的确能够达到非常高的性能。并且成本不高,容量巨大。的确是大家应该认真思考的地方。EMC的MCF,就是使用SSD作为一层缓存,还是取得了非常好的性能优势的。机械硬盘最大的问题在于随机读。一个寻道直接耗费10ms这个量级,要知道非常多在线系统的总延时也只是数百ms。对于高频交易系统,大家的时间维度都是在us,甚至大家为了解决数据在内存到网卡之间的传输延时而设计了专门的硬件,为了避免TCP多次握手和ack带来的延时而实现了“可靠”的UDP。通过为不同的场景设计特殊的SSD的文件格式,SSD的性能得到最大程度的提升;这个趋势,值得大家关注。
第三个趋势,实时大数据不单在大公司得到重视,小公司也是如此;大公司实际上早已在生产环境完毕了相关场景。而对于小公司,可能第三方的架构就非常重要了。毕竟从人力,物力来说非常难开发一套可用的实时大数据系统。
这就导致了相关技术会继续得到关注。社区也会持续在这方面进行改进。
第四个趋势,云计算和大数据最终能够融合。
云计算大数据作为商业的噱头炒作了已经非常多年了。但实际上,大数据才刚刚開始,大数据时代的帷幕已经徐徐拉开并且大家都在专注的实现一些能够为公司,为用户创造可见价值的技术。
尤其是Docker,和在其上面的Google Kubernetes。作为一个轻量级的container,为资源部署。资源隔离等制定一个标杆。相信spark等平台以后会增加对他们的支持。 虚拟化技术这些年,攻克了非常多问题,也带来了非常多问题;而docker。攻克了虚拟化带来的问题。比方性能。
(未完待续)