摘要:
深知性能优化在大数据处理中的重要性,于是专注于提升 MapReduce 程序的效率。对之前的单词计数代码进行 “手术”,从调整 map 和 reduce 任务的数量,到优化数据的输入输出格式,再到合理设置内存和 CPU 资源分配。每一次修改都需要仔细分析其对整体性能的影响,经过多次试验和对比,最终显 阅读全文
摘要:
Hadoop 的 YARN(Yet Another Resource Negotiator)组件。了解到它如同集群的 “管家”,负责资源的分配和调度,使得多个应用程序能够在 Hadoop 集群上有条不紊地运行。通过配置 YARN 的参数,尝试运行不同类型和规模的 MapReduce 任务,观察资源如 阅读全文
摘要:
Hadoop 的核心编程模型 ——MapReduce。花费大量时间剖析 Map 和 Reduce 函数的运行机制,看似简单的两个阶段,却蕴含着数据处理的巧妙逻辑。通过编写经典的单词计数程序,逐步理解了数据在各个节点上的流动和转换过程。在调试代码时,遭遇了数据类型不匹配和分区不合理的问题,经过仔细排查 阅读全文
摘要:
Hadoop 分布式文件系统(HDFS)的学习中。明白了它将大文件分割成多个数据块,然后分散存储在集群的不同节点上,这种设计既保障了数据的安全性,又提高了读写性能。亲手在 HDFS 上进行文件的上传、下载以及目录操作,期间遇到了数据块副本放置策略的问题,经过反复研究配置文件和官方文档,掌握了如何根据 阅读全文
摘要:
(1)从 scikit-learn 库中加载 iris 数据集,使用留出法留出 1/3 的样本作为测试集(注 意同分布取样); (2)使用训练集训练随机森林分类算法; (3)使用五折交叉验证对模型性能(准确度、精度、召回率和 F1 值)进行评估和选 择; (4)使用测试集,测试模型的性能,对测试结果 阅读全文
摘要:
(1)从 scikit-learn 库中加载 iris 数据集,使用留出法留出 1/3 的样本作为测试集(注 意同分布取样); (2)使用训练集训练 K 均值聚类算法,类别数为 3; (3)使用五折交叉验证对模型性能(准确度、精度、召回率和 F1 值)进行评估和选 择; (4)使用测试集,测试模型的 阅读全文
摘要:
(1)从 scikit-learn 库中加载 iris 数据集,使用留出法留出 1/3 的样本作为测试集(注 意同分布取样); (2)使用训练集训练朴素贝叶斯分类算法; (3)使用五折交叉验证对模型性能(准确度、精度、召回率和 F1 值)进行评估和选 择; (4)使用测试集,测试模型的性能,对测试结 阅读全文
摘要:
(1)从 scikit-learn 库中加载 iris 数据集,使用留出法留出 1/3 的样本作为测试集(注 意同分布取样); (2)使用训练集训练 BP 神经网络分类算法; (3)使用五折交叉验证对模型性能(准确度、精度、召回率和 F1 值)进行评估和选 择; (4)使用测试集,测试模型的性能,对 阅读全文
摘要:
(1)从 scikit-learn 库中加载 iris 数据集,使用留出法留出 1/3 的样本作为测试集(注 意同分布取样); (2)使用训练集训练支持向量机—SMO 分类算法; (3)使用五折交叉验证对模型性能(准确度、精度、召回率和 F1 值)进行评估和选 择; (4)使用测试集,测试模型的性能 阅读全文
摘要:
(1)从 scikit-learn 库中加载 iris 数据集,使用留出法留出 1/3 的样本作为测试集(注 意同分布取样); (2)使用训练集训练分类带有预剪枝和后剪枝的 C4.5 算法; (3)使用五折交叉验证对模型性能(准确度、精度、召回率和 F1 值)进行评估和选 择; (4)使用测试集,测 阅读全文