DCS_HADDOP_Introduction

Haddop

https://www.bilibili.com/video/BV1sb4y1k7cQ?p=1&vd_source=8b9de621639420a0ceb703aceed712f7

Spark

1. https://blog.csdn.net/weixin_44949135/article/details/129529080

2. https://upward.blog.csdn.net/article/details/130192421?spm=1001.2101.3001.6650.3&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-3-130192421-blog-129529080.235%5Ev38%5Epc_relevant_default_base&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-3-130192421-blog-129529080.235%5Ev38%5Epc_relevant_default_base&utm_relevant_index=6

3. https://blog.csdn.net/weixin_44949135/article/details/130260602?utm_medium=distribute.pc_relevant.none-task-blog-2~default~baidujs_baidulandingword~default-0-130260602-blog-130372852.235^v38^pc_relevant_default_base&spm=1001.2101.3001.4242.1&utm_relevant_index=3

4. https://upward.blog.csdn.net/article/details/130314249?spm=1001.2101.3001.6650.4&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-4-130314249-blog-129529080.235%5Ev38%5Epc_relevant_default_base&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-4-130314249-blog-129529080.235%5Ev38%5Epc_relevant_default_base&utm_relevant_index=9

5. https://upward.blog.csdn.net/article/details/130372852?spm=1001.2101.3001.6650.7&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ERate-7-130372852-blog-130192421.235%5Ev38%5Epc_relevant_default_base&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ERate-7-130372852-blog-130192421.235%5Ev38%5Epc_relevant_default_base&utm_relevant_index=8

6. https://upward.blog.csdn.net/article/details/130387456?spm=1001.2101.3001.6650.6&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ERate-6-130387456-blog-130765986.235%5Ev38%5Epc_relevant_default_base&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ERate-6-130387456-blog-130765986.235%5Ev38%5Epc_relevant_default_base&utm_relevant_index=12

7. https://upward.blog.csdn.net/article/details/130508758?spm=1001.2101.3001.6650.8&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ERate-8-130508758-blog-130387456.235%5Ev38%5Epc_relevant_default_base&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ERate-8-130508758-blog-130387456.235%5Ev38%5Epc_relevant_default_base&utm_relevant_index=14

8. https://upward.blog.csdn.net/article/details/130765986?spm=1001.2101.3001.6650.5&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ERate-5-130765986-blog-130192421.235%5Ev38%5Epc_relevant_default_base&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ERate-5-130765986-blog-130192421.235%5Ev38%5Epc_relevant_default_base&utm_relevant_index=6

9. https://upward.blog.csdn.net/article/details/131163184?spm=1001.2101.3001.6650.5&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ERate-5-131163184-blog-130765986.235%5Ev38%5Epc_relevant_default_base&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ERate-5-131163184-blog-130765986.235%5Ev38%5Epc_relevant_default_base&utm_relevant_index=10

第一章、大数据简介

一、概述
大数据：无论哪个机构对大数据进行定义，实际上都是围绕对海量数据进行快速有效的处理

二、特点

1. Volumn：数据体量大。

2. Variety：种类样式和来源多：

种类：文本、图片、音频、视频、flash等。
样式：结构化数据（SQL）、半结构化数据（json、XML等）；非结构话数据（图片、音频、视频等）
来源：日志（70%数据来源于日志）、爬虫、网页埋点、手动录入、数据库等。

3. Value：数据价值密度低，价值密度指的是想要的数据在总的数据量中的占比。随着网络的发展，价值密度越来越低，但是不意味着获取到的数据越来越少，恰恰相反，获取到的数据是在变多的。只是想要的数据的增长速度比不上样本总量的增长速度

4. Velocity：数据增长速度快。随着网络的发展，数据的产生速度以及增长速度越来越快。

5. Veracity:数据的质量，即数据的准确性和可信赖度。随着信息的爆炸以及网络的发展，信息的来源良秀不齐，导致数据的可信赖度变得不同

6. Valence:数据的连通性。随着大数据的发展，衍生出来了很多的技术、模块和产业，这个时候，就不得不考虑这些模块、技术和产业之间的关系

7. 随着大数据的发展，产生了越来越多的特性: vitality(动态性)、Visualization(可视化)、Validity(合法性，例如大数据杀熟、APP的过度索权)等

三、应用场景

1. 物流仓储:利用大数据对配送路线、物流中转点进行设计。

2. 电商零售:利用大数据技术对用户的消费行为进行分析，抓住用户的心理变化，来做到精准营销
3. 旅游:利用大数据技术来为用户进行合理规划(经济能力、路线等)

4. 保险:利用大数据技术进行精准营销、风险预测
5. 金融:利用大数据技术对用户进行抗压预测以及风险控制

6. 人工智能:利用大量数据对模型进行训练，提高模型的准确性

四、组织结构

第二章、Hadoop简介

一、概述

二发展

1.早在2002年的时候，Doug和Mike设计一个搜索引擎Nutch，爬取了全网10亿个网页的数据，爬取完成之后，在设计搜索引擎的过程中，遇到了存储的问题在2003年的时候，Google发表了一篇论文<The Google File System>(GFS).

2.阐述了分布式存储的思想和原理，但是并没有对外公开这个框架3，在2004年的时候，Doug和Mike根绝GFS实现了Nutch中的存储系统 NDFS(NutchDistributed File System - Nutch分布式文件系统)
在2004年的时候，Google发表了一篇论文<The Google MapReduce>，阐述了分

4.布式计算的思想和原理，但是同样没有对外公开使用这个框架在2@05年的时候，Doug根据这篇论文实现了Nutch中的MapReduce在Nutch0.8的时候，Doug发现NDFS和MapReduce不只可以用于搜索引擎，也可以用于其他的分布式处理，所以就把NDFS和MapReduce以及其他的一些需要的基本以来分离出来，组成了一个新的框架Hadoop，同时NDFS改名为HDFS(HadoopDistributed File System)，至此，Hadoop正式面世

posted @ 2023-10-18 14:33 tlfox_2006 阅读(33) 评论(0) 收藏举报

刷新页面返回顶部