最佳大数据工具及入门

最佳大数据工具及入门(上) 

大数据工具成千上万。它们都保证节省时间和金钱,还能帮助你发现前所未见的商业洞察。也许这一切都是真的,但是有这么多中选择,在这些工具世界中找寻方向可能非常棘手。

哪一个最适合你的技能包?

哪一个最适合你的项目?

为了帮你节省时间,第一时间找到合适的工具,我们制作了一个列表,包含一些我们最喜欢的数据工具,涵盖抽取、存储、清理、挖掘、可视化、分析和整合各个领域。

 

数据存储和管理

如果你和大数据打交道,就需要认真考虑如何存储它们。大数据部分上因为“大”而不同,数据太多而使得传统系统难以处理。一个优秀的数据存储程序应该提供一个基础架构,除了存储和查询数据,也能够运行你的其他所有分析工具。

 

Hadoop


Hadoop这个名字已经成为大数据的代名词。它是一个开源软件框架,用于非常大型数据集在计算机集群上的分布式存储。这意味着你可以向上和向下扩展你的数据而无需担心硬件故障。Hadoop为所有类型的数据、极大的处理能力和几乎不受限制的并发任务/作业的控制能力提供了海量存储。

Hadoop并不适合数据分析初学者。为了真正利用它的力量,你需要确实理解Java。也许是一种许诺,但是Hadoop值得努力——因为无数其他公司和技术在它上面运行,或与它集成。

入门:Cloudera有一些很棒的Hadoop培训课程

 

Cloudera

说起这个,Cloudera本质上是Hadoop与一些额外附加服务的商业名称。他们可以帮助你的公司建立企业数据中心,让你的组织成员更好地访问存储数据。


虽然确实有开源元素,但Cloudera更大程度上是一个帮助公司管理Hadoop生态系统的企业解决方案。基本上,他们为你做了大量管理Hadoop的苦活累活。他们还能提供一定的数据安全性,这对存储敏感或个人数据非常重要。

入门:Cloudera有一个很长的Webinar列表,包含了所有不同的使用类型。

 

MongoDB

MongdoDB是一个现代的初创数据库方案。可以把它们作为关系数据库的替代,适用于管理频繁更改的数据或非结构化和半结构化的数据。


常见使用案例包括存储移动应用数据、产品目录、实时个性化、内容管理和提供跨多系统单个视图的应用程序。MongoDB也不适合新手。与其他任何数据库一样,你需要知道如何使用一种编程语言查询它。

入门:MongoDB有自己的“大学”,在那里你可以学习使用他们的服务,甚至获得认证。

 

Talend


Talend是另一家很棒的开源公司,提供若干数据产品。这里我们将焦点对准他们的主数据管理(MDM)提供程序,结合了实时数据、应用程序和嵌入数据质量和组织的集成过程。

由于它是开源的,Talend完全免费,这使它无论在商业的哪个阶段,都是一个不错的选择。它为你节省了构建和维护自己的数据管理系统的时间,因为那是一个非常复杂和困难的任务。

入门:Talend有一系列很好的入门指导。

 

 

从头开始

 

如果你是完全的大数据新手,数据库不是最好的开始。它们相对复杂,而且需要一定的编程知识操作(不像下面提到的很多其他工具)。


然而,如果你真的想要开始从事大数据工作,了解数据库基础和能够聪明地谈论它们是必须的。General Assembly Class是一个很棒的起始。你会看到大数据技术的全面概览,包括数据库和存储的历史,关系和文档数据库的区别,大数据挑战和它所需要的工具,当然还有Hadoop概述。

 


数据清理

在你真的可以开始挖掘数据获得洞察之前,你需要首先清理它。尽管创建一个干净的、结构良好的数据集总是好的做法,但并不总是可能。数据集会以各种形状和大小出现(有些好,有些不好!),尤其是网络上得到的数据。下列公司会帮助你完善和重构数据以成为可用的数据集。

 

OpenRefine

OpenRefine(之前叫GoogleRefine)是一个开源工具,专注于清理杂乱数据。你可以轻松快速探索大型数据集,即使数据不太结构化。
就数据软件而言,OpenRefine相当用户友好。尽管数据清理原则的知识有一定帮助。OpenRefine的好处是它有一个庞大的社区,有很多贡献者,这意味着软件不断变得更好。遇到问题时,你可以在社区里提问(非常乐于助人且友好)。你可以签出他们的Github库,在那里还可以找到OpenRefine的wiki。

入门:软件主页和OpenRefine books上有一些指导视频。

 

DataCleaner

DataCleaner认为操作数据是一项漫长的任务。数据可视化工具只能读取很好结构化的“干净”数据集。DataCleaner为你完成这些困难的工作,将杂乱的半结构化数据转换为干净可读的数据集,使得所有可视化工具能够使用。


DataCleaner还提供数据仓库和数据管理服务。可以免费试用30天,之后按月收取订阅费用。你可以在这里找到更多有关他们的计划。

入门:DataCleaner有一套完整的文档和视频。对于他们的商业计划,还提供现场或webinar培训。

 


数据挖掘

数据挖掘不应该与数据提取(稍后讨论)相混淆。数据挖掘是在数据库中发现洞察的过程,而不是从网页提取数据到数据库的过程。数据挖掘的目标是用你拥有的数据做出预测和决策。

 

RapidMiner

高额客户列表包括PayPal、德勤,eBay和思科在内,RapidMiner是一个预测分析的神奇工具。它功能强大,易于使用,而且背后有一个优秀的开源社区。你甚至可以把你自己的专用算法通过API集成到RapidMiner中。

他们的图形界面(让人想起Yahoo! Pipes)意味着你不必知道如何写代码,或者得到博士学位,就能操作他们的四个分析产品。

入门:参见文档、论坛和支持社区以学习如何入门。

 

IBM SPSS Modeler

IBM SPSS Modeler提供一整套专注数据挖掘的解决方案。这包括文本分析、实体分析、决策管理和优化。他们的五个产品提供了一系列高级算法和技术。


SPSS Modeler是一个重型解决方案,非常适合大公司的需求。它可以在几乎任何类型的数据库上运行,你也可以把它和SPSS协作和其他IBM SPSS产品整合起来,例如SPSS协作和部署服务,以及SPSS Analytic server。

入门:作为IBM,除了支持文档不做他选。

 

Oracle data mining

数据挖掘领域的另一位大人物是Oracle。作为其高级分析数据库选配的一部分,[Oracle数据挖掘允许用户利用他们的Oracle数据发现洞察,作出预测。你可以构建模型发现客户行为,定位最好的客户和对他们画像。
Oracle Data Miner GUI使数据分析师、业务分析师和数据科学家用一套相当优雅的拖放解决方案在数据库内操作数据。它也可以创建SQL和PL/SQL脚本,以实现自动化、调度和在整个企业中部署。

入门:支持页面可以找到所有你需要的资源。

 

Teradata


Teradata认识到虽然大数据很棒,但是如果你不能确实了解如何分析和使用它,它将毫无价值。想象一下,千百万个数据点,但没有技术查询它们。这正是Teradata所在的领域。他们在数据仓库、大数据、分析和营销应用方面提供点到点的解决方案和服务。这一切都意味着你可以真正成为数据驱动的业务。

Teradata还提供一整套服务,包括实施、业务咨询、培训和支持。

入门:看看他们的支持文档。

 

FramedData

如果你需要某个特定类型的数据挖掘,有很多初创公司专门致力于帮助企业用数据回答棘手问题。如果你关心用户流失,我们推荐FrameData这家创业公司,它分析你的数据并告诉你哪些客户将会放弃你的产品。
它是一个完全托管的解决方案,这意味着你不需要做什么,只要坐下来等待。

入门:如果你感兴趣,最好请求一个试用。

 

Kaggle


如果你困惑于一个数据挖掘问题,或者想要尝试解决全世界最棘手的问题,查阅Kaggle。Kaggle是世界上最大的数据科学社区。公司和研究人员发布他们的数据,来自世界各地的统计学家和数据挖掘者竞赛产生最佳的模型。

最佳大数据工具及入门(下) 

 

import.io blog

http://blog.import.io/post/all-the-best-big-data-tools-and-how-to-use-them


 


数据分析

数据挖掘是在你的数据中寻找先前未识别的模式,而数据分析则是拆解数据,评估那些模式的长期影响。分析是指问一些具体问题,并从数据中寻找答案。你甚至可以提问关于将来会发生什么。

 

Qubole

Qubole简化、加速并扩展大数据分析工作负荷,数据存储在AWS,Google或Azure云上。他们省去了基础设施建设的麻烦。一旦IT策略到位,任意数量的数据分析师可以被解放出来,利用Hive、Spark、Presto和越来越多的其他数据处理引擎的力量协作进行“单击查询”。


Qubole是一个企业级解决方案。他们提供免费试用,可以在这个页面注册。该程序的灵活性确实将它与其他软件区别开来,也使它成为最容易访问的平台。

入门:从Qubole的资源页面学习更多。

 

BigML

BigML试图简化机器学习。他们提供了强大的机器学习服务,易用的用户界面,可以导入你的数据并得到预测。你甚至可以使用他们的模型进行预测分析。


如果想从BigML中获得更多,了解建模肯定有帮助,但并不是必须的。他们有一个免费版本的工具,可以用于创建16mb以下的任务,你也可以支付费用,得到满足企业级需求的计划和私有虚拟云。

入门:可以在这个快速的视频播放列表中看到BigML是如何工作的。

 

Statwing

Statwing把数据分析带入一个新的水平,提供从漂亮的视觉效果到复杂分析的一切。他们有一篇很酷的博客文章,关于NFL数据。Statwing是如此易用,你可以在5分钟之内真正开始使用它。


虽然它不是免费的,但定价相当优雅。基本方案是每月50美元,随时可以取消。这允许你使用无限数量的数据集,每个最大50mb。还有可以上传更大数据集的其他企业计划。

入门:他们的主页上有很多非常酷的视频教程。

 


数据可视化

数据可视化公司将使你的数据具有活力。每个数据科学家都会遇到的挑战之一是将洞察从数据传达给公司中的其他人。对大多数同事来说,MySQL数据库和电子表格不够明白。可视化是传达复杂数据洞察的光明之路。而且最棒的部分是其中大部分软件都不需要任何编程!

 

Tableau

Tableau是一款数据可视化工具,主要侧重商业智能。无需编程就可以创建地图、条形图、散点图和其他图形。他们最近的版本包含一个web连接器,允许你连接一个数据库或API,从而在数据可视化中获得实时数据。


Tableau有五种产品可用,附带不同程度的支持和功能。如果你刚接触vizzing(他们这么称呼),我们推荐免费版本的Tableau Public。探索这一工具能够帮你决定应该购买其他哪一款Tableau产品。

入门:Tableau有很多功能,因此在深入进去之前,一定要看他们的教程。

 

Silk

Silk是比Tableau简单很多的数据可视化分析工具。只需要点几下鼠标就能够创建交互式地图和图表。Silk也支持在一个可视化中尽可能多的人协作。


就像这个名单上的很多可视化公司一样,Silk并不需要你成为专业程序员。如果你刚接触数据可视化,它适合开始,因为最新特性尝试自动可视化你的数据,而不需要你做任何事。

入门:Silk的网站上有一个非常全的教程合辑。

 

CartoDB

CartoDB是一个专门制作地图的数据可视化工具。它使任何人都可以轻松可视化位置数据,无需任何编程。CartoDB可以处理大量数据文件和类型,甚至还包含你可以操作的样本数据集。

如果你有位置数据,CartoDB绝对值得一看。它可能不是使用最简单的系统,但是一旦你了解它的用法,它难以置信的强大。它还提供一套允许项目协作和访问控制的企业方案。

入门:他们有一个扩展的文档库帮助你成为地图专家。

 

Chartio

Chartio允许合并数据源并执行浏览器内查询,通过几次点击创建强大的仪表板。Chartio的可视化查询语言让任何人从任何地方获取数据,而不需要懂得SQL或其他复杂模型语言。它也可以生成PDF报告,从而能够导出仪表板,并用电子邮件发送给你希望的任何人。


有关Chartio另一个很酷的特性是它通常不需要数据仓库。这意味着启动和运行更快,而且执行成本更低,更可预测。

入门:查阅Chartio的教程以入门。

 

Plot.ly

如果你想创建一幅图,Plot.ly是合适的地方。这个方便的平台允许你创建令人惊叹的2D和3D图标(你真的需要看见它才会相信它!)。再一次,这一切都不需要编程知识。


免费版本可以创建一个私有图表和无限制的公开图表,或者你可以升级到企业包,包含制作无限制的私有和公开图表,以及矢量化导出选项和保存自定义主题。

入门:在Plotly的全系列教程中可以找到入门所需的一切。

 

Datawrapper

最后一个可视化工具是Datawrapper。它是一个开源工具,在几分钟内创建可嵌入的图标。因为它是开源的,任何人都可以贡献代码,软件会不断改进。它有一个非常棒的图表库,在那里你可以看到人们用Datawrapper所做的。


类似于这一节中许多其他的公司,它也有两个免费工具和付费选项。付费可以得到预先设定,定制化的Datawrapper包。

入门:查看很棒的Datawrapper教程。

 


数据整合

数据整合平台是程序间的“胶水”。如果你想要把使用Import.io提取的数据和twitter相连接,或者想在Facebook上分享用Tableau或Silk自动创建的可视化,下面这些整合服务可能会帮到你。

 

Blockspring

Blockspring是一个独特的程序,在类似Excel和Google工作表这样熟悉的平台中使用类似IFTTT和Zapier这样的服务。你可以通过在Google中写一个公式来连接第三方程序的整个主机,也可以在电子表格中发表推文,看看你的粉丝们还关注了谁,也可以连接到AWS,Import.io和Tableau等等其他服务。


Blockspring免费使用,但是他们也有企业包,允许创建和分享私有函数,添加便于搜索的自定义标签,以及一次性为整个组织设置API令牌。

入门:Blockspring有一些很不错的帮助文档。

 

Pentaho

Pentaho提供0编程需求的大数据整合。使用一个简单的拖放式UI,你可以用最少的代码集成若干工具。他们还提供嵌入式分析和商业分析服务。


Pentaho是一套企业解决方案。你可以请求数据整合产品的免费使用,在这之后需要付费。

入门:你可以查看帮助文档以获得更好体验。

 


数据语言

虽然现在工具正在变得越来越强大,越来越易用,有时候比自己编程更好。但在你的数据职业生涯中总会遇到工具hold不住的时候。即使你不是一个程序员,理解编程语言的基础将使你更好地理解这些工具的功能以及如何最好地使用它们。

 

R


R是一种用于统计计算和图形的语言。如果上面列出的数据挖掘和统计软件不足以满足你的需求,学习R是前进的道路。事实上,如果你计划成为数据科学家,了解R是必备的。

它可以在Linux、Windows和MacOS上运行,你可以在这个页面下载R。现在有一个庞大的统计学家社区在使用R,它的受欢迎程度总在增长。

入门:一旦下载完成,你可以查看相关的文档。

 

Python

在数据社区流行的另一种语言是Python。创建于1980年代,名字来自巨蟒之飞行的马戏团,它一直稳居世界最流行编程语言的前十。如果数据收集工具无法得到需要的数据,许多记者使用Python编写自定义爬虫。


人们喜欢它与英语的相似。它使用例如“if”和“in”这样的单词,意味着你可以很容易读懂程序脚本。它为不同类型的任务提供设计好的大量库。

入门:查阅Python主页以学习更多。

 

正则表达式

正则表达式,或者简写成RgeEx,是一组字符,可以操作和更改数据。它主要用于字符串的模式匹配,或字符串匹配。在Import.io,你可以在提取数据时使用正则表达式删除或保留字符串中的特定部分。


它是非常有用的工具,在数据提取时使用它,你可以得到你想要的一切,而不需要依赖前面提到的那些数据操作公司。

入门:有很多很酷的正则表达式在线教程。

 

XPath

XPath是一种用于选择XML文档中节点的查询语言。正则表达式操作和更改数据部分,而XPath提取原始数据,为正则表达式做好准备。


XPath在数据提取中最常用。Import.io实际上会在每次单击一块数据自动创建XPath,只是你看不到它们!也可以插入你自己的XPath从次啊拉菜单或网页选项卡中获取数据。简单之,Xpath是一条路径,一组通向网页HTML中某个特定部分的方向。

入门:最好的XPath教程来自w3schools。

 


数据收集

在你可以存储、分析或可视化数据之前,你必须有数据。数据提取是指从非结构化的地方,像是一个网页中提取,并把它变成一个结构化的表。一旦你得到这张表,就可以用各种各样的方法操作它,使用我们已经介绍过的这些工具发现数据洞察。

 

Import.io

Import.io是最好的数据提取工具。使用一个非常简单的点击界面,我们打开一个网页并将其转换为易用的电子表格,之后可以用来分析、可视化和做出数据驱动的决策。


除了这个免费使用的工具,Import.io也是宜家数据提供商。我们为每一个客户定制数据集,这些数据可以按计划更新,也就是说你的业务将一直得到最新数据。

入门:查看我们的知识库学习如何正确使用工具,或者联系我们的数据专家为业务定制数据解决方案。

posted @ 2015-12-07 21:26  菜鸡一枚  阅读(3745)  评论(0编辑  收藏  举报