10 2023 档案

摘要:正向最大匹配 def forward_match(text,item_dict): """ :param text: 分词文本 :param item_dict: 指导分词 """ resList = [] # 存放结果 LongWord = max([len(word) for word in i 阅读全文
posted @ 2023-10-30 15:37 PythonNew_Mr.Wang 阅读(159) 评论(0) 推荐(0) 编辑
摘要:import random import time import cv2 from selenium import webdriver import requests import base64 import io from PIL import Image from selenium.webdri 阅读全文
posted @ 2023-10-25 08:48 PythonNew_Mr.Wang 阅读(672) 评论(0) 推荐(0) 编辑
摘要:RDD介绍 Resilient: RDD中的数据可以存储在内存中或者磁盘中。 Dataset:一个数据集合,用于存放数据的。 Distributed: RDD中的数据是分布式存储的,可用于分布式计算 RDD五大特性 # coding:utf8 from pyspark import SparkCon 阅读全文
posted @ 2023-10-20 16:24 PythonNew_Mr.Wang 阅读(32) 评论(0) 推荐(0) 编辑
摘要:基本架构 1:ResourceManager(资源管理器):ResourceManager是YARN的核心组件,负责管理和分配集群资源。它接收来自Spark应用程序的资源请求,并根据可用资源情况进行分配和调度。 2:NodeManager(节点管理器):NodeManager是每个节点上的代理程序, 阅读全文
posted @ 2023-10-19 17:44 PythonNew_Mr.Wang 阅读(172) 评论(0) 推荐(0) 编辑
摘要:Python 环境准备 Anaconda3: https://pan.baidu.com/s/1e4Wx48RsW0Pm_saotxTW4A?pwd=66ki [root@test1 ~]# cd /export/ [root@test1 export]# rz # 上传源文件包 [root@tes 阅读全文
posted @ 2023-10-19 12:29 PythonNew_Mr.Wang 阅读(94) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2023-10-10 19:37 PythonNew_Mr.Wang 阅读(210) 评论(0) 推荐(0) 编辑
摘要:安装FineBi 1:百度云链接:https://pan.baidu.com/s/1u9QHGzo9v9Wcrn5iJU4hQg?pwd=sotc (这里安装的时候你可能需要登录到官网注册获取激活码)https://www.finebi.com/ 2: 将Hive驱动包放入指定目录 D:\FineB 阅读全文
posted @ 2023-10-10 17:34 PythonNew_Mr.Wang 阅读(265) 评论(0) 推荐(0) 编辑
摘要:HIVE 内部表与外部表的区别 # HIVE储存数据位置 [hadoop@test1 hive]$ hadoop fs -ls /user/hive/warehouse/testhive.db/info/ Found 1 items -rw-r--r-- 3 hadoop supergroup .. 阅读全文
posted @ 2023-10-09 18:23 PythonNew_Mr.Wang 阅读(145) 评论(0) 推荐(0) 编辑
摘要:Mysql 安装配置远程登录 # 更新密钥 rpm --import https://repo.mysql.com/RPM-GPG-KEY-mysql-2022 # 安装Mysql yum库 rpm -Uvh http://repo.mysql.com//mysql57-community-rele 阅读全文
posted @ 2023-10-07 12:27 PythonNew_Mr.Wang 阅读(67) 评论(0) 推荐(0) 编辑
摘要:主机配置: 192.168.88.101 test1 192.168.88.102 test2 192.168.88.103 test3  Hadoop 上传压缩包并且解压 hadoop百度云:链接:https://pan.baidu.com/s/1DRV_x7Q_ZTUO4KMkr2-6Qg? 阅读全文
posted @ 2023-10-07 12:23 PythonNew_Mr.Wang 阅读(104) 评论(0) 推荐(0) 编辑
摘要:MapReduce 基础架构与原理 1:Job Tracker:JobTracker是MapReduce的主节点,负责协调整个作业的执行过程。它接收客户端提交的作业请求,并将作业划分为多个任务(Task)。JobTracker跟踪任务的执行状态,监控任务的进度和失败情况,并重新调度失败的任务。 2: 阅读全文
posted @ 2023-10-07 12:12 PythonNew_Mr.Wang 阅读(104) 评论(0) 推荐(0) 编辑
摘要:基础架构(HDFS:Hadoop Distributed File System) 1:NameNode(名称节点):NameNode 是HDFS的主要组件之一,负责管理文件系统的命名空间和元数据(记录了文件和数据块的映射关系,以及数据块在数据节点的位置信息)。 2:DataNode(数据节点):D 阅读全文
posted @ 2023-10-06 10:53 PythonNew_Mr.Wang 阅读(194) 评论(0) 推荐(0) 编辑
摘要:第一步:配置虚拟网络,指定网关 # (1): 下载最新版本的VMare,百度许可证,安装 # (2):左上角《编辑》 -> 《虚拟网络编辑器》 -> 右下角《更改设置》 # (3): 点击VMnet8 -> 子网IP: 192.168.88.0 # (4): 点击NAT设置 -> 网关ip: 192 阅读全文
posted @ 2023-10-02 15:49 PythonNew_Mr.Wang 阅读(90) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示