从0开始学大数据
一、大数据起源
2013年大数据元年。
分布式文件系统 GFS、大数据分布式计算框架 MapReduce 和 NoSQL 数据库系统 BigTable。
Hadoop,主要包括 Hadoop 分布式文件系统 HDFS 和大数据计算引擎 MapReduce。
Facebook发布Hive。Hive 支持使用 SQL 语法来进行大数据计算,比如说你可以写个 Select 语句进行数据查询,然后 Hive 会把 SQL 语句转化成 MapReduce 的计算程序。
分布式文件系统HDFS,大数据分布式计算框架 Hive ,NoSQL 数据库系统-HBase。
通过从数据库,日志等获取的数据,sqoop,flume导入到大数据产品HDFS储存。Mapreduce,spark对储存的数据进行批计算处理,flink,storm等进行实时处理。Yarn负责对数据的资源调度。
名词解释:
1.
Hadoop生态
HDFS 分布式文件系统
MapReduce 大数据计算引擎
Hive 使用SQL进行大数据计算 - 将SQL转换为MapReduce的计算过程
Sqoop 将关系型数据库导入到Hadoop平台
Flume 大规模日志分布式收集聚合传输
Oozie MapReduce工作流调度
Yarn 资源调度,从MapReduce分离
Spark :MapReduce的升级,使用内存作为存储介质
离线计算框架: MapReuce、Spark 离
流式计算框架: Strom、Flink、Spark Streaming
2.
大数据应用: 数据分析 Hive 、Spark SQL
数据挖掘与机器学习: TensorFlow、Mahout、MLlib
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
2018-07-08 大数据挖掘基本概念