大数据原理、技术与实践
大数据基本概念
大数据通常指的是数据量巨大、增长速度快、类型繁多且无法通过传统的数据库管理工具处理的数据集合。
大数据的“4V”特征——数据量(Volume)、数据种类(Variety)、数据速度(Velocity)和数据价值(Value),是理解大数据的核心。
数据结构
大数据中数据种类非常多样,如:存储结构性(mysql、redis)、非结构性业务(图片、音视频)等。
不要把这里的数据混淆于我们常接触的关系型或非关系型数据库里面的结构化和半结构化数据中,因为这里的数据还包含非结构化数据。
大数据应用方向
- 数据挖掘/分析方向
数据挖掘是将原始数据转化为实用的知识。其目标不是提取或挖掘数据本身,而是对已有的大量数据,提取有意义或有价值的知识。另外,数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。
例子:用户画像、餐厅画像、大型数据报表、个人征信报告、业务风控系统、电商行业就近分发的物流仓储系统等。 - 数据预测方向
利用历史数据和统计模型来预测未来的趋势、行为或事件。多用在金融、医疗、制造等领域。
例子:电商推荐商品、金融股票预测、医疗健康风险预测、医疗辅助诊断、制造业机器故障预测、交通流量预测等 - 数据决策方向
利用历史数据和统计模型来对单位、企业的业务决策提供数据支撑(科学依据)
例子:农业、畜牧业的精细化管理以及经营决策、体育赛事战术决策比较有意思的例子:猪肉价格狂涨,一度到了牛肉的价格。接着一堆人开始追涨养猪,结果是,到了明年全体扑街。倘若,他们有一点市场供需意识,或者有大数据提供数据支撑(通过在饲料供给端埋点),就能在高维【看到】有多少人养殖、又会引起怎样的市场供需变化,或许就不会亏的裤衩子都不剩了
- 业务创新方向
替代一些重复性的工作,解放人类的生产力
例子:AI、自动驾驶汽车、各种各样的机器人等
应用场景
大数据的应用领域非常广泛,涵盖了金融、医疗、零售、制造、交通等多个行业。
序号 | 行业 | 过程(包括,不限于) | 行为 |
---|---|---|---|
1 | 医疗行业 | 各种报告 =》挖掘/分析 =》疾病数据库 =》治疗方案 | 决策 |
2 | 金融行业 | 信贷记录 =》挖掘/分析 =》个人征信报告 =》风险管控 | 决策 |
3 | 电商/零售行业 | 消费数据 =》挖掘/分析 =》消费习惯 =》营销短信 | 预测(推荐) |
4 | 农牧行业 | 农产品消费数据 =》挖掘/分析 =》供应量 =》平衡供需/种植、养殖建议 | 预测、决策 |
5 | 交通运输 | 车辆通行数据 =》挖掘/分析 =》车辆通行密度 =》规划通行路线 | 预测、决策 |
6 | … | … | … |
- 用户画像:
宏观上,可以从年龄、性别、地域给出用户饮食上的偏好;微观上,可以做针对每个用户的营养分析 - 餐厅画像:
宏观上,可以从地区上描述智慧食堂分布情况、盈利情况、营业情况等;微观上对每个餐厅做具体分析 - 食谱/食谱BOM画像:
宏观上,可以做地区食谱受欢迎榜单;微观上可以从BOM分析出,怎样的物料配比既能让用户满意,又能让餐厅盈利最大化 - 经营决策:
上面提及的食谱BOM画像说到的,科学的食材配比;利用历史数据预测未来需求量、客流量,进而调整库存或者采购量;通过分析顾客点餐偏好优化每日经营菜谱;根据顾客历史消费记录精准推荐菜品
大数据一般性过程
围绕这个大数据一般性过程存在对应的产业布局或者技术应用,以及一些规范。大致过程有如下:
- 采集与处理:数据采集与处理是大数据的关键技术之一,它从互联网、传感器和信息系统等来源获取的大量带有噪声的数据进行预处理,包括数据清洗、填补和规范化等流程,使无序的数据更加有序,便于处理,以达到快速分析处理的目的
- 存储与管理:数据存储与管理是指将处理前或处理后的数据以特定格式记录在计算机内部或外部存储介质上,并对数据进行管理和调用的过程。此过程有助于减少数据孤岛现象,并确保数据的可靠性、安全性、可用性和可扩展性
- 挖掘与分析:通俗地讲,数据挖掘是将原始数据转化为实用的知识。其目标不是提取或挖掘数据本身,而是对已有的大量数据,提取有意义或有价值的知识。另外,数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。百度百科认为,狭义的数据分析与数据挖掘本质是一样的,都是发现有价值的信息。然后狭义的数据分析+数据挖掘==广义的数据分析
- 可视化与呈现:数据可视化是使用图表、图形或地图等可视元素来表示数据的过程。该过程将难以理解和运用的数据转化为更易于处理的可视化表示。数据可视化工具可自动提高视觉交流过程的准确性并提供详细信息,以便决策者可以确定数据之间的关系并发现隐藏的模式或趋势
- 治理与应用:这里其实就是根据挖掘与分析后,得到的有价值信息,然后给出对应的解决方案
- 安全与合规:根据《中华人民共和国数据安全法》,数据是指任何以电子或者其他方式对信息的记录。数据安全是指通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力。各地区、各部门对本地区、本部门工作中收集和产生的数据及数据安全负责
大数据入门:https://zhuanlan.zhihu.com/p/649359758
包含下面内容
- 数据收集
- 数据仓库和数据库区别
- 数据仓库架构
- 数据仓库元数据管理(元数据(MetaData)指的是数据的数据,比如:数据库中数据和字段,这里的字段就是元数据)
- 数据治理
- 大数据常用名词
编程技能
编程技能是学习大数据的基础。无论是数据的处理、存储还是分析,编程都是必不可少的工具。在大数据领域。
以下几种编程语言是学习者需要掌握的:
- Python:Python是数据科学领域最受欢迎的编程语言之一,拥有丰富的数据处理库(如Pandas、NumPy)和数据可视化工具(如Matplotlib、Seaborn)。Python的简洁语法和强大功能使其成为处理大数据的首选语言之一。
- Java:Java在大数据生态系统中具有重要地位,尤其是Hadoop和Spark等大数据框架的底层都是用Java实现的。掌握Java对于理解这些框架的原理非常有帮助。
- SQL:SQL是用于与关系型数据库交互的查询语言。在大数据领域,SQL广泛应用于数据查询、管理和操作。掌握SQL对于处理结构化数据至关重要。
- Scala:Scala是Spark的原生编程语言。虽然Python和Java也可以用于Spark编程,但Scala在性能和兼容性方面更具优势。因此,学习Scala可以帮助更好地掌握大数据处理框架。
学习数据存储与管理技术
大数据涉及到海量数据的存储和管理,因此学习与大数据相关的存储技术至关重要。
以下是几个关键的技术方向:
- Hadoop:Hadoop是最早的大数据分布式存储与处理框架,它通过HDFS(Hadoop Distributed File System)进行数据存储,并通过MapReduce实现数据的并行处理。虽然如今Spark逐渐取代了MapReduce的主流地位,但Hadoop的基础仍然非常重要,学习者应该理解其原理和架构。
【大数据】大数据学习(一)之 Hadoop简介及安装配置 - Hive:Hive是基于Hadoop的数据仓库工具,它可以将SQL查询转换为MapReduce任务,从而实现对Hadoop中的数据进行管理和查询。对于有SQL基础的学习者,掌握Hive可以帮助更好地处理大规模数据。
- HBase:HBase是一种NoSQL数据库,能够处理海量的非结构化数据。与传统的关系型数据库相比,HBase更适合处理大规模的分布式数据,因此是大数据存储中的重要工具之一。
- Cassandra:Cassandra也是一种分布式NoSQL数据库,广泛应用于大数据应用中,特别是在处理实时数据时有很好的表现。
学习数据处理与分析技术
大数据的核心之一在于对海量数据的处理和分析,因此掌握大数据处理和分析技术是学习的重中之重。
以下是几种关键的技术工具和框架:
- Spark:Spark是目前最流行的大数据处理框架,因其比MapReduce更快、更高效而受到广泛欢迎。Spark支持批处理、流处理、机器学习和图计算等多种处理模式。掌握Spark对于成为大数据专家至关重要,学习者应重点掌握Spark的核心概念,如:RDD(Resilient Distributed Dataset)、数据流处理(Streaming)、Spark SQL等。
- Kafka:Kafka是一种分布式流处理平台,广泛用于实时数据流的处理和消息传递。大数据领域中,实时数据处理越来越重要,Kafka作为高效的数据传输工具,帮助实现了大规模实时数据的处理。
- Flume:Flume是Hadoop生态系统中用于数据收集和传输的工具。它能够高效地将海量日志和事件数据从不同的数据源传输到HDFS或其他存储系统中。
- Pig:Pig是Hadoop生态中的一个高层数据处理工具,它通过一种名为Pig Latin的语言来简化复杂的MapReduce任务。Pig适合处理半结构化和非结构化数据,对于复杂的批处理任务有良好的表现。
学习数据分析与可视化
大数据的最终目的是通过分析挖掘出有用的信息。因此,数据分析技术也是学习大数据的关键环节。
以下是一些常用的分析工具:
- R语言:R是一种用于统计分析的编程语言,拥有丰富的数据分析和统计功能。R在数据科学领域具有很高的地位,特别是在数据建模和预测分析中应用广泛。
- Tableau:Tableau是一款功能强大的数据可视化工具,它能够将复杂的数据分析结果直观地呈现出来,帮助用户快速理解数据背后的信息。
- Power BI:Power BI是由微软推出的数据分析与可视化平台,适合企业用户进行大规模数据的分析和报表生成。
学习机器学习与人工智能
随着大数据技术的发展,机器学习与大数据的结合越来越紧密。学习者可以在掌握了数据处理和分析基础后,进一步学习机器学习算法,并通过大数据平台进行实践。常用的机器学习工具包括:
- TensorFlow:这是谷歌推出的机器学习框架,支持大规模的数据建模和训练。
- Scikit-learn:这是Python中的一个简单易用的机器学习库,适合初学者进行入门和实践。
实践与项目经验
大数据领域强调实际项目经验,理论知识固然重要,但更重要的是将这些知识应用于真实的数据场景中。
应通过各种开源数据集或企业实习项目,不断积累实践经验。
可以参与一些大数据竞赛,使用真实数据进行分析和建模,或者加入一些大数据开源项目,参与代码贡献。
学习大数据需要扎实的编程基础、熟练掌握大数据处理框架和工具,同时不断积累实践经验。整个学习过程可能耗时较长,但通过系统的学习,掌握从数据存储、处理到分析和机器学习的全流程,能够帮助我们成为一名合格的大数据工程师或数据科学家。
进群交流、获取更多干货, 请关注微信公众号:

> > > 咨询交流、进群,请加微信,备注来意:sanshu1318 (←点击获取二维码)
> > > 学习路线+测试实用干货精选汇总:
https://www.cnblogs.com/upstudy/p/15859768.html
> > > 【自动化测试实战】python+requests+Pytest+Excel+Allure,测试都在学的热门技术:
https://www.cnblogs.com/upstudy/p/15921045.html
> > > 【热门测试技术,建议收藏备用】项目实战、简历、笔试题、面试题、职业规划:
https://www.cnblogs.com/upstudy/p/15901367.html
> > > 声明:如有侵权,请联系删除。
============================= 升职加薪 ==========================
更多干货,正在挤时间不断更新中,敬请关注+期待。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
2022-03-02 【测试基础】带你全面了解软件测试及工作流程