摘要: https://www.w3cschool.cn/apache_pig/ 什么是Apache Pig? Apache Pig是MapReduce的一个抽象。它是一个工具/平台,用于分析较大的数据集,并将它们表示为数据流。Pig通常与 Hadoop 一起使用;我们可以使用Apache Pig在Hado 阅读全文
posted @ 2022-03-18 21:42 hanease 阅读(112) 评论(0) 推荐(0) 编辑
摘要: 1.用R计算数据基本统计量(均值) 学习机器学习和数据挖掘中的各种算法和模型,需要掌握统计学的基本概念。统计学是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,并预测对象未来走势的一门综合性科学。 简单说,统计学是根据样本估计总体的科学。它的一些思想和大数据思想有些相悖,不关注数据的大小, 阅读全文
posted @ 2022-03-18 21:37 hanease 阅读(871) 评论(0) 推荐(0) 编辑
摘要: Storm结构概述 主流的三大分布式计算系统:Hadoop,Spark和Storm 由于Google没有开源Google分布式计算模型的技术实现,所以其他互联网公司只能根据Google三篇技术论文中的相关原理,搭建自己的分布式计算系统。 Yahoo的工程师Doug Cutting和Mike Cafa 阅读全文
posted @ 2022-03-18 21:08 hanease 阅读(84) 评论(0) 推荐(0) 编辑