上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 34 下一页
摘要: 今天学习了爬虫 # 导入所需库 import urllib.request from lxml import etree # 设置目标URL和请求头信息,模拟Chrome浏览器访问 url = 'https://www.baidu.com/' headers = { 'User-Agent': 'M 阅读全文
posted @ 2024-01-15 12:47 一个小虎牙 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 实验报告 题目: Spar机器学习库 MLlib 编程实践 姓名 日期2024.1.14 实验环境:操作系统:Ubuntu16.04 JDK 版本:1.7 或以上版本 Spark 版本:2.1.0 实验内容与完成情况: 1.数据导入 从文件中导入数据,并转化为 DataFrame。 代码: from 阅读全文
posted @ 2024-01-14 17:11 一个小虎牙 阅读(30) 评论(0) 推荐(0) 编辑
摘要: 今天继续完成实验 4.实验报告 题目: Spark Streaming 编程初级实践 姓名 日期2024.1.13 实验环境:操作系统: Ubuntu16.04 Spark 版本:2.1.0 Flume 版本:1.7.0 实验内容与完成情况: Flum安装 (1)解压安装包 tar -zxvf ap 阅读全文
posted @ 2024-01-13 18:07 一个小虎牙 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 今天完成了实验spark sql 题目: Spark SQL编程初级实践 姓名 实验环境:操作系统:Ubuntu18.04(或Ubuntu16.04); Spark版本:3.2.0; Hadoop版本:3.1.3。 Pycharm Anaconda3 实验内容与完成情况: 基本操作 代码(注释操作) 阅读全文
posted @ 2024-01-12 11:47 一个小虎牙 阅读(12) 评论(0) 推荐(0) 编辑
摘要: Spark和Hadoop是大数据处理领域两个重要的开源框架,它们之间既有紧密的联系也有显著的区别。 联系: 生态兼容:Spark可以无缝运行在Hadoop之上,利用Hadoop Distributed File System (HDFS) 进行数据存储,并且可以通过YARN(Yet Another 阅读全文
posted @ 2024-01-11 10:21 一个小虎牙 阅读(161) 评论(0) 推荐(0) 编辑
摘要: 今天继续rddd练习: from pyspark import SparkConf,SparkContext #创建sparkconf对象 conf = SparkConf().setMaster("local[*]").setAppName("test_app") #基于sparkconf对象创建 阅读全文
posted @ 2024-01-11 10:17 一个小虎牙 阅读(9) 评论(0) 推荐(0) 编辑
摘要: 今天学习了rdd的过滤和去重: from pyspark import SparkConf,SparkContext #创建sparkconf对象 conf = SparkConf().setMaster("local[*]").setAppName("test_app") #基于sparkconf 阅读全文
posted @ 2024-01-10 11:38 一个小虎牙 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 今天看了spark的安装视频,进行了spark的基础学习。 rdd: map计算 rdd = sc.parallelize([1,2,3,4,5]) def func(date): return date*10 rdds=rdd.map(func) #flatMap解除嵌套 rdd = sc.par 阅读全文
posted @ 2024-01-09 17:32 一个小虎牙 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 今天考完了习概。 阅读全文
posted @ 2024-01-08 18:34 一个小虎牙 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 今日完成了王老师的作业提交 阅读全文
posted @ 2024-01-06 23:34 一个小虎牙 阅读(2) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 34 下一页