随笔分类 - 大数据
Windows如何安装hadoop
摘要:Hadoop是一个开源的分布式计算平台,旨在处理大规模数据的存储和处理。它提供了分布式文件系统(HDFS)和分布式计算框架(MapReduce),使得用户能够在大规模集群上存储和处理数据。Hadoop最初由Apache软件基金会开发,现已成为处理大数据的主流解决方案之一。 Hadoop的核心组件包括
阅读全文
Pandas数据结构
摘要:2.1 简介 2.2.1 创建Series import pandas as pd # 创建一个包含整数的Series data = pd.Series([1, 3, 5, 7, 'panda']) print(data) # 为Series中的值指定索引 test=pd.Series(['宋江',
阅读全文
Pandas DataFrame基础知识
摘要:1.1 简介 Pandas 是 Python 编程语言的一个软件库,用于数据操作和分析。它提供了强大的数据结构,特别是 DataFrame,用于处理结构化数据。DataFrame 类似于电子表格,可以存储多种类型的数据,并支持各种数据操作,包括索引、选择、过滤、合并和聚合数据。Pandas 还提供了
阅读全文
Windows如何安装spark
摘要:Apache Spark是一个开源的大数据处理框架,旨在提供高效、通用和易用的大数据处理引擎。它最初由加州大学伯克利分校AMPLab开发,并于2010年开源。 Spark提供了一个基于内存的计算引擎,可以在大规模数据集上执行高速的数据处理任务。相比传统的MapReduce模型,Spark具有更高的性
阅读全文