摘要:
昨天和一个做互联网大数据(零售行业)的朋友交流,关于大数据传统企业实施的切入点产生了争执,主要围绕两个问题进行了深入的探讨:
问题1:对于一个传统企业而言什么是核心业务,什么是外围业务?
问题2:大数据传统企业实施切入点到底是从核心开始还是该从外围介入?
两个问题有关联关系,如果界定不了核心与外围的边界,那么第二个问题也就无从回答。在此与大家共享,希望更多的人能参与进来发表自己的观点。 阅读全文
摘要:
hadoop专业解决方案第5章 开发可靠的MapReduce应用 阅读全文
摘要:
数据模型及操作模型:你的应用层数据模型是行、对象还是文档型的呢?这个系统是否能支持你进行一些统计工作呢?
可靠性:当你更新数据时,新的数据是否立刻写到持久化存储中去了?新的数据是否同步到多台机器上了?
扩展性:你的数据量有多大,单机是否能容下?你的读写量求单机是否能支持?
分区策略:考虑到你对扩展性,可用性或者持久性的要求,你是否需要一份数据被存在多台机器上?你是否需要知道数据在哪台机器上,以及你能否知道。
一致性:你的数据是否被复制到了多台机器上,这些分布在不同点的数据如何保证一致性?
事务机制:你的业务是否需要ACID的事务机制?
单机性能:如果你打算持久化的将数据存在磁盘上,哪种数据结构能满足你的需求(你的需求是读多还是写多)?写操作是否会成为磁盘瓶颈?
负载可评估:对于一个读多写少的应用,诸如响应用户请求的web应用,我们总会花很多精力来关注负载情况。你可能需要进行数据规模的监控,对多个用户的数据进行汇总统计。你的应用场景是否需要这样的功能呢? 阅读全文
摘要:
课程大纲主题时间主题列数据库(第1天)上午HBase发展简史-Google BigTable的开源实现HBase基础:安装部署、管理命令、运行监控和开发接口;HBase专题:服务组件、存储模式、逻辑架构下午HBase优化:配置调优、客户端架构调优HBase应用:实时查询数据库与操作数据库HBase案例:XX实时查询数据库系统文档数据库(第2天)上午MongoDB概述-最类似关系型数据库的No-SQLMongoDB物理存储-并非NoSQL,为何MongoDB仍然需要文档结构的设计;MongoDB系统架构-系统整合,MongoDB服务组件和功能说明;下午HBase与MongoDB对比分析Mongo 阅读全文
摘要:
垄断的背景,带来的结果自然是数据的壁垒,曾经基于大数据做金融行业做微贷风险评估的行业应用被我否决,就是因为我们无法打通跨行情况下,客户营收明细数据的汇聚。大数据环境下,数据壁垒的制约,必将成为大数据行业应用的关键性屏障。当然这一切对于拥有垄断资源的企业都不成问题,数据就在他们手里,无须仰人之鼻息。 阅读全文
摘要:
大数据在结构化数据存储方面的应用需求越来越明确,但是大数据环境下辅助开发工具的不完善,给数据库管理人员和开发人员带来的不变难以言表,基于此创建了开源项目VisualHBase,同时创建了VisualHBase的开发群:263505724,希望能够借助社区的力量,解决大数据企业实施的瓶颈。 阅读全文
摘要:
提供统一的数据数据导入工具,数据可视化工具、数据校验工具、数据导出工具和公共的数据查询接口服务管理工具才是大数据作为数据仓库发展的方向。
基于大数据技术构建数据仓库平台,源于大数据技术本身的不成熟和普及度问题,以及辅助工具的缺失,注定了其实施过程与传统数据仓库的差异性,和更大的实施难度。本文针对大数据技术应用与数据仓库类项目需求分析阶段,需要完成的主要工作基于用户需求分析说明书的文档结构进行目录式展现。如需了解更深层的细节,可以做专项技术交流和咨询服务。 阅读全文
摘要:
一、前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,春节期间,项目进度有所延迟,不过元宵节以后大家已经步入正轨, 目前第12章 为Hadoop应用构建企业级的安全解决方案已经翻译完成,在此对:译者:杨有鹏不莱梅狗 78280847 表示感谢。二、意见征集: 本章节由《Hadoop专业解决方案群:313702010》翻译小组完成,为小组校验稿,已经通过小组内部校验通过,特此面向网络征集意见,如果对本章节内容有任何异议,请在评论中加以说明,说明时,请标明行号,也可以以修订的方式,发送给我。非常感谢。三、原书说明 英文原书《Wrox.Prof... 阅读全文
摘要:
大数据在结构化数据存储方面的第一种模式:实时查询数据库;
大数据在结构化数据数据存储方面的第二种模式:大数据仓库;
思考题:
1.实时查询数据库能否替换实时操作数据库吗?
2.大数据仓库可以替代数据仓库吗? 阅读全文
摘要:
最近在处理一个商业银行的大数据项目,旨在构建大数据资源池,项目边界确认过程中,针对项目的定位出现了两种不同的观点,对大数据的在传统行业的应用有了新的启发。观点一、大数据作为操作数据历史库,存储操作数据库数据,提供历史数据长周期,快速检索的历史数据存储和快速查询服务。观点二、大数据作为数据仓库的的历史库,解决数据仓库历史数据存储的问题,构建一个大容量,高可用的数据存储平台,为全量数据分析和知识挖掘提供服务。作为操作数据库的历史库,已经完成了项目的实施,但是作为数据仓库的历史库之前的定位一直是取代,基于大数据做数据分析和知识挖掘,现在却找到了一个新的切入点,才发现,原来二者并不矛盾。 阅读全文