随笔分类 - 9-C 数据库技术区
摘要:大数据丛书大数据日知录:架构与算法(大数据领域专家力作,专注大数据架构和算法,全面梳理大数据相关技术)张俊林 著 ISBN 978-7-121-24153-62014年9月出版定价:69.00元 404页16开编辑推荐这是一本心血之作,历时3年,质量上乘。从架构与算法的角度,比较全面地分门别类梳理了...
阅读全文
摘要:大数据丛书阿里技术丛书重构大数据统计(阿里巴巴集团技术丛书,大数据丛书。大型互联网公司大数据分析实践经验!大数据分析人员必修必学的内功。基于本书内容开发的数据分析工具已在阿里巴巴集团内部使用,取得显著效果。)杨旭 著 ISBN 978-7-121-22500-02014年8月出版定价:79.00元 ...
阅读全文
摘要:Storm 实战:构建大数据实时计算(阿里巴巴集团技术丛书,大数据丛书。大型互联网公司大数据实时处理干货分享!来自淘宝一线技术团队的丰富实践,快速掌握Storm技术精髓!)阿里巴巴集团数据平台事业部商家数据业务部 编著 ISBN 978-7-121-22649-62014年8月出版定价:59.00元...
阅读全文
摘要:大数据的存储和管理任何机器都会有物理上的限制:内存容量、硬盘容量、处理器速度等等,我们需要在这些硬件的限制和性能之间做出取舍,比如内存的读取速度比硬盘快得多,因此内存数据库比硬盘数据库性能好,但是内存为2GB的机器不可能将大小为100GB的数据全部放入内存中,也许内存大小为128GB的机器能够做到,但是数据增加到200GB时就无能为力了。数据不断增长造成单机系统性能不断下降,即使不断提升硬件配置也难以跟上数据的增长速度。然而,当今主流的计算机硬件比较便宜而且可以扩展,现在购置八台8内核、128GB内存的机器比购置一台64内核、TB级别内存的服务器划算得多,而且还可以增加或减少机器来应对将来的变
阅读全文
摘要:MongoDB入门连接数据库在这里我们使用MongoDB提供的JavaScript shell进行数据库操作,当然也可以通过不同的驱动利用其他编程语言实现同样的功能,不过shell在管理数据库的方面还是很方便的。启动JavaScript shell的方法很简单,命令如下:C:\mongodb\bin\mongo在默认情况下,shell连接到本地test数据库,可以看到如下信息:C:\mongodb\bin>mongoMongoDB shell version: 2.0.2connecting to: test>“connecting to”的后面是要连接的数据库的名字,如果想换成其
阅读全文
摘要:数据挖掘是如何解决问题的本节通过几个数据挖掘实际案例来诠释如何通过数据挖掘解决商业中遇到的问题。2.1.1节中关于“啤酒和尿不湿”的故事是数据挖掘中最经典的案例。而Target公司通过“怀孕预测指数”来预测女顾客是否怀孕的案例也是近来为数据挖掘学者最津津乐道的一个话题。很多人会问,究竟数据挖掘能够为企业做些什么?下面我们通过一个在数据挖掘中最经典的案例来解释这个问题——一个关于尿不湿与啤酒的故事。尿不湿和啤酒 超级商业零售连锁巨无霸沃尔玛公司(Wal Mart)拥有世界上最大的数据仓库系统之一。为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行了购物篮关联规则分析,从而知道顾
阅读全文
摘要:数据挖掘分类技术从分类问题的提出至今,已经衍生出了很多具体的分类技术。下面主要简单介绍四种最常用的分类技术,不过因为原理和具体的算法实现及优化不是本书的重点,所以我们尽量用应用人员能够理解的语言来表述这些技术。而且我们会在第4章再次给读者讲述分类算法和相关原理。在我们学习这些算法之前必须要清楚一点,分类算法不会百分百准确。每个算法在测试集上的运行都会有一个准确率的指标。用不同的算法做成的分类器(Classifier)在不同的数据集上也会有不同的表现。KNN,K最近邻算法K最近邻(k-Nearest Neighbor,kNN)分类算法可以说是整个数据挖掘分类技术中最简单的方法。所谓K最近邻,就是
阅读全文
摘要:近几年来,云计算受到学术界和工业界的热捧,随后,大数据横空出世,更是炙手可热。那么,大数据和云计算之间是什么关系呢?从整体上看,大数据与云计算是相辅相成的大数据着眼于“数据”,关注实际业务,提供数据采集分析挖掘,看重的是信息积淀,即数据存储能力。云计算着眼于“计算”,关注 IT 解决方案,提供 IT 基础架构,看重的是计算能力,即数据处理能力。没有大数据的信息积淀,则云计算的计算能力再强大,也难以找到用武之地;没有云计算的处理能力,则大数据的信息积淀再丰富,也终究只是镜花水月。从技术上看,大数据根植于云计算云计算关键技术中的海量数据存储技术、海量数据管理技术、MapReduce编程模型,都是大
阅读全文
摘要:大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和呈现的有力武器。这些技术下一步将如何发展?它们之中哪些技术将广为流行?又会诞生哪些新的技术?技术趋向多样化,企业应选择接受度高和未来会快速普及的技术目前,大数据相关的技术和工具非常多,给企业提供了更多的选择。在未来,还会继续出现新的技术和工具,如Hadoop分发、下一代数据仓库等,这也是大数据领域的创新热点。那么企业到底该选用什么技术呢?TDWI(数据仓库研究所)对现有的大部分技术和工具进行了调查,以现在及未来三年内企业接受度和增长率两个维度进行划分,这些技术和工具可分成四类(见右图)。企业最需要关注的是第1类中的技术和工具,
阅读全文
摘要:在大数据时代,传统的数据处理方法还适用吗?大数据环境下的数据处理需求大数据环境下数据来源非常丰富且数据类型多样,存储和分析挖掘的数据量庞大,对数据展现的要求较高,并且很看重数据处理的高效性和可用性。传统数据处理方法的不足传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。对依靠并行计算提升数据处理速度方面而言,传统的并行数据库技术追求高度一致性和容错性,根据CAP理论,难以保证其可用性和扩展性。传统的数据处理方法是以处理器为中心,而大数据环境下,需要采取以数据为中心的模式,减少数据移动带来的开销。因此,传统的数据处理方法,已经不能适应大数据的
阅读全文
摘要:转型时代丛书大数据——大价值、大机遇、大变革(全彩) (无须技术背景,无须专业知识,照样看透大数据!)李志刚主编朱志军,佘丛国,闫蕾等编著ISBN 978-7-121-18560-12012年10月出版定价:78.00元16开244页宣传语:图文并茂,深入浅出,活泼有趣,轻松理解大数据引发的深刻变革!内 容 简 介不管你愿意不愿意,我们每天都在制造和分享数据;不管你关心不关心,我们已经生活在大数据的包围之中。大数据,这个在 2012 年突然火爆起来的词汇,我们究竟该如何解读?本书介绍了大数据产生的背景、特征和发展趋势,从实证的角度探讨了它对社会和商业智能的影响,并认为大数据正影响着商业模式的转
阅读全文