摘要:
当今,世界无时无刻不在发生着变化。对于技术领域而言,普遍存在的一个巨大变化就是为大数据(Big data)打开了大门,并应用大数据技相关技术来改善各行业的业务并促进经济的发展。目前,大数据的作用已经上升到一定程度,对于小型或大型公司而言,从所收集的数据中提取出有用的信息已被是非常宝贵的。此外,大数据 阅读全文
摘要:
本文作者是一位软件工程师,他对20位开发人员和数据科学家使用Apache Kafka的方式进行了最大限度得深入研究,最终将生产实践环节需要注意的问题总结为本文所列的20条建议。 Apache Kafka是一个广受欢迎的分布式流媒体平台,New Relic、Uber以及Square等数千家公司都在使用 阅读全文
摘要:
数据不是信息,而是有待理解的原材料。但有一件事是确定无疑的:当NSA为了从其海量数据中“挖掘”出信息,耗资数十亿改善新手段时,它正受益于陡然降落的计算机存储和处理价格。 麻省理工学院的研究者约翰·古塔格(John Guttag)和柯林·斯塔尔兹(Collin Stultz)创建了一个计算机模型来分析 阅读全文
摘要:
在机器学习领域,有种说法叫做“世上没有免费的午餐”,简而言之,它是指没有任何一种算法能在每个问题上都能有最好的效果,这个理论在监督学习方面体现得尤为重要。 在机器学习领域,有种说法叫做“世上没有免费的午餐”,简而言之,它是指没有任何一种算法能在每个问题上都能有最好的效果,这个理论在监督学习方面体现得 阅读全文
摘要:
本文将介绍用于大数据堆栈的五个最有用的架构,以及每个架构的优点,以便更好地理解和权衡。此外,还对成本、何时使用、热门产品,以及每种架构的提示和技巧进行了阐述。 本文将介绍用于大数据堆栈的五个最有用的架构,以及每个架构的优点,以便更好地理解和权衡。此外,还对成本、何时使用、热门产品,以及每种架构的提示 阅读全文
摘要:
对于许多数据科学家来说,数据操作起始于Pandas或Tidyverse。从理论上看,这个概念没有错。毕竟,这是为什么这些工具首先存在的原因。然而,对于分隔符转换等简单任务来说,这些选项通常可能是过于重量级了。 有意掌握命令行应该在每个开发人员的技能链上,特别是数据科学家。学习shell中的来龙去脉无 阅读全文
摘要:
Hadoop 3个核心组件: 分布式文件系统:Hdfs——实现将文件分布式存储在很多的服务器上(hdfs是一个基于Linux本地文件系统上的文件系统) 分布式运算编程框架:Mapreduce——实现在很多机器上分布式并行运算 分布式资源调度平台:Yarn——帮用户调度大量的mapreduce程序,并 阅读全文
摘要:
广义上来说,Hadoop大数据平台也可以看做是新一代的数据仓库系统, 它也具有很多现代数据仓库的特征,也被企业所广泛使用。因为MPP架构的可扩展性,基于MPP的数据仓库系统有时候也被划分到大数据平台类产品。 但是数据仓库和Hadoop平台还是有很多显著的不同。针对不同的使用场景其发挥的作用和给用户带 阅读全文
摘要:
近年来,大数据概念越来越热门,大数据日渐应用于生活中,部分企业把大数据提升到战略层面,而关于大数据的讨论也越来越热烈。而关于大数据工作的开展是技术驱动还是业务需求驱动的争论一直都有,其实这种争论没有太大意义,让大数据发挥出应有的价值才是目标所向。 如果非要说点什么,可以这样看:对于已经有明确商业价值 阅读全文
摘要:
在这个大数据已经成为市场一个美味的“大蛋糕”的今日,大多数企业都很想要分得一块。大多数企业正做好了布局大数据的准备,那么,该怎么做才能成功去布局? 最近,电子科技大学教授,云基地大数据实验室合伙人周涛在接受采访时提出,对于普通企业要通过修炼成为大数据企业,关键要做好7个步骤: 1.要实现数据化。企业 阅读全文