09 2020 档案
摘要:基于MLlib的机器学习(操作向量、特征提取、特征标准化、分类、回归、聚类、降维)
阅读全文
摘要:Spark SQL和Beeline
阅读全文
摘要:Spark调优(并行度调优、序列化格式优化、内存管理优化、Spark SQL性能优化)
阅读全文
摘要:Spark常见数据源(文件格式与文件系统:文本文件\JSON\CSV\SequenceFile;Spark SQL中的结构化数据源;数据库与键值存储)
阅读全文
摘要:RDD:创建RDD和操作RDD(转化操作和行动操作)
阅读全文
摘要:关于情感分类(Sentiment Classification)的文献整理
阅读全文
摘要:安装虚拟机,Hadoop和Hive
阅读全文