随笔分类 -  SPARK

摘要:Pyspark 案例实践 假新闻分类 https://blog.csdn.net/Amecc_ooy/article/details/122545707?ops_request_misc=%257B%2522request%255Fid%2522%253A%252216569895861678168 阅读全文
posted @ 2022-07-05 16:53 半个程序猿Cohen_Lee 阅读(118) 评论(0) 推荐(0) 编辑
摘要:引用链接https://www.jianshu.com/p/80c98ae72db2 在pyspark中的vector有两种类型,一种是DenseVector,其与一般的列表或者array数组形式非常相似;另一种则是SparseVector,这种vector在保存数据的时候保存三个信息:向量长度,向 阅读全文
posted @ 2022-06-30 11:06 半个程序猿Cohen_Lee 阅读(290) 评论(0) 推荐(0) 编辑
摘要:Spark #安装Anaconda3 一、 上传 Anaconda3-2021.05-Linux-x86_64.sh 到 /export/server/ 二、 安装Anaconda3-2021.05-Linux-x86_64.sh sh Anaconda3-2021.05-Linux-x86_64. 阅读全文
posted @ 2022-06-06 14:53 半个程序猿Cohen_Lee 阅读(122) 评论(0) 推荐(0) 编辑
摘要:#spark笔记 Spark框架概述 ###Spark是什么 spark是用于大规模数据处理的统一分析引擎. Spark 借鉴了MapReduce 思想发展而来,保留了其分布式并行计算的优点并改进了其明显的缺陷。让中间数据存储在内存中提 高了运行速度、并提供丰富的操作数据的API提高了开发速度。 S 阅读全文
posted @ 2022-03-28 17:32 半个程序猿Cohen_Lee 阅读(31) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示