一个小虎牙 - 博客园

2024年1月15日

摘要：今天学习了爬虫 # 导入所需库 import urllib.request from lxml import etree # 设置目标URL和请求头信息，模拟Chrome浏览器访问 url = 'https://www.baidu.com/' headers = { 'User-Agent': 'M 阅读全文

posted @ 2024-01-15 12:47 一个小虎牙阅读(5) 评论(0) 推荐(0) 编辑

2024年1月14日

寒假生活指导06

摘要：实验报告题目： Spar机器学习库 MLlib 编程实践姓名日期2024.1.14 实验环境：操作系统：Ubuntu16.04 JDK 版本：1.7 或以上版本 Spark 版本：2.1.0 实验内容与完成情况： 1.数据导入从文件中导入数据，并转化为 DataFrame。代码： from 阅读全文

posted @ 2024-01-14 17:11 一个小虎牙阅读(30) 评论(0) 推荐(0) 编辑

2024年1月13日

寒假生活指导05

摘要：今天继续完成实验 4.实验报告题目： Spark Streaming 编程初级实践姓名日期2024.1.13 实验环境：操作系统： Ubuntu16.04 Spark 版本：2.1.0 Flume 版本：1.7.0 实验内容与完成情况： Flum安装（1）解压安装包 tar -zxvf ap 阅读全文

posted @ 2024-01-13 18:07 一个小虎牙阅读(3) 评论(0) 推荐(0) 编辑

2024年1月12日

寒假生活指导04

摘要：今天完成了实验spark sql 题目： Spark SQL编程初级实践姓名实验环境：操作系统：Ubuntu18.04（或Ubuntu16.04）； Spark版本：3.2.0； Hadoop版本：3.1.3。 Pycharm Anaconda3 实验内容与完成情况：基本操作代码（注释操作）阅读全文

posted @ 2024-01-12 11:47 一个小虎牙阅读(12) 评论(0) 推荐(0) 编辑

2024年1月11日

hadoop和spark

摘要： Spark和Hadoop是大数据处理领域两个重要的开源框架，它们之间既有紧密的联系也有显著的区别。联系：生态兼容：Spark可以无缝运行在Hadoop之上，利用Hadoop Distributed File System (HDFS) 进行数据存储，并且可以通过YARN（Yet Another 阅读全文

posted @ 2024-01-11 10:21 一个小虎牙阅读(161) 评论(0) 推荐(0) 编辑

寒假生活指导03

摘要：今天继续rddd练习： from pyspark import SparkConf,SparkContext #创建sparkconf对象 conf = SparkConf().setMaster("local[*]").setAppName("test_app") #基于sparkconf对象创建阅读全文

posted @ 2024-01-11 10:17 一个小虎牙阅读(9) 评论(0) 推荐(0) 编辑

2024年1月10日

寒假生活指导02

摘要：今天学习了rdd的过滤和去重： from pyspark import SparkConf,SparkContext #创建sparkconf对象 conf = SparkConf().setMaster("local[*]").setAppName("test_app") #基于sparkconf 阅读全文

posted @ 2024-01-10 11:38 一个小虎牙阅读(6) 评论(0) 推荐(0) 编辑

2024年1月9日

寒假生活指导01

摘要：今天看了spark的安装视频，进行了spark的基础学习。 rdd： map计算 rdd = sc.parallelize([1,2,3,4,5]) def func(date): return date*10 rdds=rdd.map(func) #flatMap解除嵌套 rdd = sc.par 阅读全文

posted @ 2024-01-09 17:32 一个小虎牙阅读(5) 评论(0) 推荐(0) 编辑

2024年1月8日

每日总结

摘要：今天考完了习概。阅读全文

posted @ 2024-01-08 18:34 一个小虎牙阅读(2) 评论(0) 推荐(0) 编辑

2024年1月6日

每日总结

摘要：今日完成了王老师的作业提交阅读全文

posted @ 2024-01-06 23:34 一个小虎牙阅读(2) 评论(0) 推荐(0) 编辑

公告