01 2024 档案

摘要:Spark程序运行层次结构 4040: 是一个运行的Application在运行的过程中临时绑定的端口,用以查看当前任务的状态.4040被占用会顺延到4041.4042等 4040是一个临时端口,当前程序运行完成后, 4040就会被注销 8080: 默认是StandAlone下, Master角色( 阅读全文
posted @ 2024-01-31 20:25 傲世小苦瓜 阅读(4) 评论(0) 推荐(0) 编辑
摘要:今天学习了rdd的过滤和去重: from pyspark import SparkConf,SparkContext #创建sparkconf对象 conf = SparkConf().setMaster("local[*]").setAppName("test_app") #基于sparkconf 阅读全文
posted @ 2024-01-30 21:21 傲世小苦瓜 阅读(3) 评论(0) 推荐(0) 编辑
摘要:StandAlone的原理? Master和Worker角色以独立进程的形式存在,并组成Spark运行时环境(集群) Spark角色在StandAlone中的分布? Master角色:Master进程, Worker角色:Worker进程, Driver角色和Executor角色: 以线程运行在Wo 阅读全文
posted @ 2024-01-29 21:37 傲世小苦瓜 阅读(5) 评论(0) 推荐(0) 编辑
摘要:# coding:utf8 # 指定源代码编码格式为UTF-8 from pyspark.sql import SparkSession # 导入SparkSession类,用于创建和管理Spark应用上下文 from pyspark.sql.functions import concat, exp 阅读全文
posted @ 2024-01-25 20:40 傲世小苦瓜 阅读(13) 评论(0) 推荐(0) 编辑
摘要:url = "https://aod.cos.tx.xmcdn.com/group28/M07/DE/F4/wKgJXFk8TBnQZJbDAGkx6deAu2c402-aacv2-48K.m4a" import requests response = requests.get(url) conte 阅读全文
posted @ 2024-01-24 22:32 傲世小苦瓜 阅读(10) 评论(0) 推荐(0) 编辑
摘要:今天尝试使用hutool对自己的oss进行下载。 <dependency> <groupId>cn.hutool</groupId> <artifactId>hutool-all</artifactId> <version>5.8.11</version> </dependency> package 阅读全文
posted @ 2024-01-24 22:17 傲世小苦瓜 阅读(7) 评论(0) 推荐(0) 编辑
摘要:from pyspark import SparkConf, SparkContext # 创建Spark配置和上下文对象 conf = SparkConf().setAppName("SparkActionsAndPartitions") sc = SparkContext(conf=conf) 阅读全文
posted @ 2024-01-23 22:23 傲世小苦瓜 阅读(7) 评论(0) 推荐(0) 编辑
摘要:1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 阅读全文
posted @ 2024-01-22 22:23 傲世小苦瓜 阅读(8) 评论(0) 推荐(0) 编辑
摘要:Standalone 架构 Standalone模式是Spark自带的一种集群模式,不同于前面本地模式启动多个进程来模拟集群的环境,Standalone模 式是真实地在多个机器之间搭建Spark集群的环境,完全可以利用该模式搭建多机器集群,用于实际的大数据处理。 StandAlone 是完整的Spa 阅读全文
posted @ 2024-01-21 23:54 傲世小苦瓜 阅读(14) 评论(0) 推荐(0) 编辑
摘要:from pyspark.sql import SparkSession from pyspark.ml.recommendation import ALS # 创建SparkSession spark = SparkSession.builder.appName('RecommendationSy 阅读全文
posted @ 2024-01-20 21:44 傲世小苦瓜 阅读(12) 评论(0) 推荐(0) 编辑
摘要:Selenium 是一个强大的自动化测试工具,用于模拟真实用户在Web浏览器中的交互行为。它可以跨多种浏览器和平台运行,并且支持多种编程语言,包括Python、Java、C# 和 Ruby 等。以下是一个基本的Selenium使用教程概述: 1. 准备工作 安装浏览器:首先确保安装了要进行自动化操作 阅读全文
posted @ 2024-01-19 12:13 傲世小苦瓜 阅读(5) 评论(0) 推荐(0) 编辑
摘要:XPATH语法: 1.路径查询 //:查找所有子孙节点,不考虑层级关系 / :找直接子节点 2.谓词查询 //div[@id] //div[@id="maincontent"] 3.属性查询 //@class 4.模糊查询 //div[contains(@id, "he")] //div[start 阅读全文
posted @ 2024-01-18 23:06 傲世小苦瓜 阅读(7) 评论(0) 推荐(0) 编辑
摘要:1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 import json import jsonpath 阅读全文
posted @ 2024-01-18 22:54 傲世小苦瓜 阅读(7) 评论(0) 推荐(0) 编辑
摘要:今天学习了爬虫 # 导入所需库 import urllib.request from lxml import etree # 设置目标URL和请求头信息,模拟Chrome浏览器访问 url = 'https://www.baidu.com/' headers = { 'User-Agent': 'M 阅读全文
posted @ 2024-01-16 22:49 傲世小苦瓜 阅读(5) 评论(0) 推荐(0) 编辑
摘要:# (1) 请求对象的定制 # (2)获取网页的源码 # (3)下载 # 需求 下载的前十页的图片 # https://sc.chinaz.com/tupian/qinglvtupian.html 1 # https://sc.chinaz.com/tupian/qinglvtupian_page. 阅读全文
posted @ 2024-01-15 22:43 傲世小苦瓜 阅读(6) 评论(0) 推荐(0) 编辑
摘要:Spark Standalone集群是Master-Slaves架构的集群模式,和大部分的Master-Slaves结构集群一样,存在着Master 单点故障(SPOF)的问题。 如何解决这个单点故障的问题,Spark提供了两种方案: 1.基于文件系统的单点恢复(Single-Node Recove 阅读全文
posted @ 2024-01-14 22:54 傲世小苦瓜 阅读(6) 评论(0) 推荐(0) 编辑
摘要:什么是Spark? Spark是大数据的调度,监控和分配引擎。它是一个快速通用的集群计算平台.Spark扩展了流行的MapReduce模型.Spark提供的主要功能之一就是能够在内存中运行计算 ,但对于在磁盘上运行的复杂应用程序,系统也比MapReduce更有效 2、Spark部署模式 2.1、独立 阅读全文
posted @ 2024-01-13 22:47 傲世小苦瓜 阅读(5) 评论(0) 推荐(0) 编辑
摘要:Spark解决什么问题? 海量数据的计算,可以进行离线批处理以及实时流计算 Spark有哪些模块? 核心SparkCore、SQL计算(SparkSQL)、流计算(SparkStreaming )、图计算(GraphX)、机器学习(MLlib) Spark特点有哪些? 速度快、使用简单、通用性强、多 阅读全文
posted @ 2024-01-12 21:39 傲世小苦瓜 阅读(5) 评论(0) 推荐(0) 编辑
摘要:Spark运行角色Spark中由4类角色组成整个Spark的运行时环境。Master角色,管理整个集群的资源类比与YARN的ResouceManager。Worker角色,管理单个服务器的资源类比于YARN的NodeManager。Driver角色,管理 单个Spark任务在运行的时候的工作类比于Y 阅读全文
posted @ 2024-01-11 22:28 傲世小苦瓜 阅读(9) 评论(0) 推荐(0) 编辑
摘要:今天中午回到家,吃过午饭,下午困得不行,先睡了一觉,醒了之后研究了一下寒假指导的大概内容,要求今天开始发布博客,但是今天太累了,明天在开始吧。 计划明天先开始spark的学习,虽然上学期已经有了一点基础,但是好久也不用了,还是忘了很多,明天开始从头再过一遍,计划下周三之前过完。 阅读全文
posted @ 2024-01-10 21:21 傲世小苦瓜 阅读(7) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示