摘要:
今天学习了爬虫 # 导入所需库 import urllib.request from lxml import etree # 设置目标URL和请求头信息,模拟Chrome浏览器访问 url = 'https://www.baidu.com/' headers = { 'User-Agent': 'M 阅读全文
摘要:
实验报告 题目: Spar机器学习库 MLlib 编程实践 姓名 日期2024.1.14 实验环境:操作系统:Ubuntu16.04 JDK 版本:1.7 或以上版本 Spark 版本:2.1.0 实验内容与完成情况: 1.数据导入 从文件中导入数据,并转化为 DataFrame。 代码: from 阅读全文
摘要:
今天继续完成实验 4.实验报告 题目: Spark Streaming 编程初级实践 姓名 日期2024.1.13 实验环境:操作系统: Ubuntu16.04 Spark 版本:2.1.0 Flume 版本:1.7.0 实验内容与完成情况: Flum安装 (1)解压安装包 tar -zxvf ap 阅读全文
摘要:
今天完成了实验spark sql 题目: Spark SQL编程初级实践 姓名 实验环境:操作系统:Ubuntu18.04(或Ubuntu16.04); Spark版本:3.2.0; Hadoop版本:3.1.3。 Pycharm Anaconda3 实验内容与完成情况: 基本操作 代码(注释操作) 阅读全文
摘要:
Spark和Hadoop是大数据处理领域两个重要的开源框架,它们之间既有紧密的联系也有显著的区别。 联系: 生态兼容:Spark可以无缝运行在Hadoop之上,利用Hadoop Distributed File System (HDFS) 进行数据存储,并且可以通过YARN(Yet Another 阅读全文
摘要:
今天继续rddd练习: from pyspark import SparkConf,SparkContext #创建sparkconf对象 conf = SparkConf().setMaster("local[*]").setAppName("test_app") #基于sparkconf对象创建 阅读全文
摘要:
今天学习了rdd的过滤和去重: from pyspark import SparkConf,SparkContext #创建sparkconf对象 conf = SparkConf().setMaster("local[*]").setAppName("test_app") #基于sparkconf 阅读全文
摘要:
今天看了spark的安装视频,进行了spark的基础学习。 rdd: map计算 rdd = sc.parallelize([1,2,3,4,5]) def func(date): return date*10 rdds=rdd.map(func) #flatMap解除嵌套 rdd = sc.par 阅读全文