2022 年 7月随笔档案 - Dsad123FFFG6645

filter

摘要：filter算子功能：对RDD集合中的每个元素调用一次参数中的表达式对数据进行过滤，符合条件就保留，不符合就过滤阅读全文

posted @ 2022-07-28 20:30 Dsad123FFFG6645 阅读(28) 评论(0) 推荐(0) 编辑

\\s+

摘要：这是正则表达式，通过一定规则的表达式来匹配字符串用的 \s 表示空白字符，包括但不限于空格、回车(\r)、换行(\n)、tab或者叫水平制表符(\t)等，这个根据编码格式不同代表的含义也不一样，感兴趣可以搜索看一下 + 是重复修饰符，表示它前面与它紧邻的表达式格式相匹配的字符串至少出现一个，上不封顶阅读全文

posted @ 2022-07-28 16:40 Dsad123FFFG6645 阅读(973) 评论(0) 推荐(0) 编辑

python 读取文件作为对象

摘要：Python 读写文件和file对象_boshuzhang的博客-CSDN博客阅读全文

posted @ 2022-07-28 16:22 Dsad123FFFG6645 阅读(28) 评论(0) 推荐(0) 编辑

python str.join()

摘要：Python中的 .join()用法_chixujohnny的博客-CSDN博客_.join() 阅读全文

posted @ 2022-07-28 15:46 Dsad123FFFG6645 阅读(41) 评论(0) 推荐(0) 编辑

asd

摘要：asdasd 阅读全文

posted @ 2022-07-27 23:46 Dsad123FFFG6645 阅读(9) 评论(0) 推荐(0) 编辑

combiner

摘要：每一个map可能会产生大量的输出，combiner的作用就是在map端对输出先做一次合并，以减少传输到reducer的数据量。 combiner最基本是实现本地key的归并，combiner具有类似本地的reduce功能。如果不用combiner，那么，所有的结果都是reduce完成，效率会相对低阅读全文

posted @ 2022-07-25 20:04 Dsad123FFFG6645 阅读(117) 评论(0) 推荐(0) 编辑

conda 中安装的包地址

摘要：C:\anaconda3\Lib\site-packages 阅读全文

posted @ 2022-07-22 16:16 Dsad123FFFG6645 阅读(141) 评论(0) 推荐(0) 编辑

分布式计算过程

摘要：# 定义一个列表 list1 = [1,2,3,4,5,6,7,8,9,10] # 将列表通过SparkContext将数据转换为一个分布式集合RDD inputRdd = sc.parallelize(list1)#如果有n个结点那么数据就会分成n分存在各个结点 # 将RDD中每个分区的数据进阅读全文

posted @ 2022-07-21 21:22 Dsad123FFFG6645 阅读(73) 评论(0) 推荐(0) 编辑

map算子

摘要：>>> list1 = [1,2,3,4,5,6,7,8,9,10] >>> print(*list1) 1 2 3 4 5 6 7 8 9 10 >>> list2 = map(lambda x : x**2,list1) >>> print(*list2) 1 4 9 16 25 36 49 6 阅读全文

posted @ 2022-07-21 20:29 Dsad123FFFG6645 阅读(19) 评论(0) 推荐(0) 编辑

RDD的三个机制

摘要：RDD的三个机制 - mls12 - 博客园 (cnblogs.com) persist 为了计算性能 cheakpoint 为了数据安全阅读全文

posted @ 2022-07-20 16:52 Dsad123FFFG6645 阅读(42) 评论(0) 推荐(0) 编辑

rdd

摘要：rdd五大特性 (35条消息) RDD：五大特性_花和尚也有春天的博客-CSDN博客_rdd的五大特性 Spark之RDD的定义及五大特性 - |旧市拾荒| - 博客园 (cnblogs.com) 阅读全文

posted @ 2022-07-19 09:54 Dsad123FFFG6645 阅读(85) 评论(0) 推荐(0) 编辑

1

摘要：sss 阅读全文

posted @ 2022-07-13 17:59 Dsad123FFFG6645 阅读(6) 评论(0) 推荐(0) 编辑

打包版本

摘要：opencv-python 3.4.14.53 pypi_0 pypipillow 9.0.1 py39hdc2b20a_0 defaultspyautogui 0.9.52 pypi_0 pypipyinstaller 5.0.1 pypi_0 pypipython 3.9.12 h6244533 阅读全文

posted @ 2022-07-13 11:54 Dsad123FFFG6645 阅读(10) 评论(0) 推荐(0) 编辑

pyautogui

摘要：pip install pyautogui安装失败的解决办法 - 知乎 (zhihu.com) 阅读全文

posted @ 2022-07-11 18:58 Dsad123FFFG6645 阅读(7) 评论(0) 推荐(0) 编辑

conda 打包

摘要：打开 prompt conda activate envname cd XXX pyinstaller -F XX.py 阅读全文

posted @ 2022-07-11 14:06 Dsad123FFFG6645 阅读(19) 评论(0) 推荐(0) 编辑

快捷键

摘要：ctrl z y 撤销前进阅读全文

posted @ 2022-07-10 16:58 Dsad123FFFG6645 阅读(3) 评论(0) 推荐(0) 编辑

coda虚拟环境

摘要：列举 conda env list 创建 # 语法conda create -n 虚拟环境名字 python=版本# 示例conda create -n bigdata01 python=3.7conda create -n bigdata02 python=3.9conda env list 切换阅读全文

posted @ 2022-07-10 15:46 Dsad123FFFG6645 阅读(160) 评论(0) 推荐(0) 编辑

bigdata

摘要：分布式技术负载均衡（Load Balance）将负载（工作任务）进行平衡、分摊到多个操作单元上进行运行解决了单个无法处理所有任务，多个一起处理的问题故障转移（Fail Over）当活动的服务或应用意外终止时，快速启用冗余或备用的服务器、系统、硬件或者网络接替它们工作故障转移系统也称之为容阅读全文

posted @ 2022-07-09 16:41 Dsad123FFFG6645 阅读(229) 评论(0) 推荐(0) 编辑

端口

摘要：hdfs http://hadoop01:9870/ yarn http://hadoop01:8088/ hue http://hadoop02:8889/hue cm http://hadoop01:7180/cmf 用户名密码：admin 阅读全文

posted @ 2022-07-08 23:05 Dsad123FFFG6645 阅读(8) 评论(0) 推荐(0) 编辑

sql REGEXP_REPLACE

摘要：(34条消息) REGEXP_REPLACE的使用方法__JohnnyChu的博客-CSDN博客_regexp_replace 阅读全文

posted @ 2022-07-08 22:47 Dsad123FFFG6645 阅读(34) 评论(0) 推荐(0) 编辑

hive语法

摘要：窗口函数 Function OVER ([PARTITION BY <...>] [ORDER BY <....>] [<window_expression>]) --1、Function可以是下面分类中的任意一个 --聚合函数：比如sum、max、avg、max、min等 --排序函数：比如ran 阅读全文

posted @ 2022-07-08 16:39 Dsad123FFFG6645 阅读(34) 评论(0) 推荐(0) 编辑

count(distinct if) sum(distinct if)

摘要：【hive】count() count(if) count(distinct if) sum(if)的区别 - zzhangyuhang - 博客园 (cnblogs.com) 阅读全文

posted @ 2022-07-08 01:05 Dsad123FFFG6645 阅读(66) 评论(0) 推荐(0) 编辑

mysql 忘记密码

摘要：(34条消息) MySQL修改root密码步骤，解决解决mysqld skip-grant-tables失败问题_zrhsmile的博客-CSDN博客 mysql启动失败 1 C:\Program Files\MySQL\MySQL Server 8.0\bin>mysqld --remove my 阅读全文

posted @ 2022-07-07 18:41 Dsad123FFFG6645 阅读(15) 评论(0) 推荐(0) 编辑

day1

摘要：用sqoop脚本从mysql 导入到hive 建立ods层 #将mysql 中第一张表导入hive 中的ods层/usr/bin/sqoop import "-Dorg.apache.sqoop.splitter.allow_text_splitter=true" \--connect 'jdbc: 阅读全文

posted @ 2022-07-06 00:04 Dsad123FFFG6645 阅读(22) 评论(0) 推荐(0) 编辑

hive location

摘要：(34条消息) hive 中的location_夜曲章的博客-CSDN博客_hive location 理解不能阅读全文

posted @ 2022-07-02 21:24 Dsad123FFFG6645 阅读(16) 评论(0) 推荐(0) 编辑

hive 导出表到mysql

摘要：1 在mysql 中建库 CREATE DATABASE yp_olap DEFAULT CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci; 2 在presto 中建mysql的表 DROP TABLE mysql.yp_olap.test;CREAT 阅读全文

posted @ 2022-07-02 19:56 Dsad123FFFG6645 阅读(39) 评论(0) 推荐(0) 编辑

hive 将查询的结果存为新表

摘要：create table itcast_ods.tmp as SELECT count(ip) c, ip FROM itcast_ods.web_acc_info GROUP BY ip order by c desc 几种保存Hive查询结果的方法 - 又尘埃 - 博客园 (cnblogs.co 阅读全文

posted @ 2022-07-01 20:17 Dsad123FFFG6645 阅读(388) 评论(0) 推荐(0) 编辑

hive 总结

摘要：hive 建表 1字符串用string 因为varchar容易中文乱码 2数值可以用int 但是后面不能加括号 int(12)类似这样 Hive 时间数据类型 - 简书 (jianshu.com) 阅读全文

posted @ 2022-07-01 18:20 Dsad123FFFG6645 阅读(26) 评论(0) 推荐(0) 编辑

sql 语法

摘要：SQL DEFAULT 约束 DEFAULT 约束用于向列中插入默认值。如果没有规定其他的值，那么会将默认值添加到所有的新记录。 CREATE TABLE 时的 SQL DEFAULT 约束阅读全文

posted @ 2022-07-01 18:13 Dsad123FFFG6645 阅读(20) 评论(0) 推荐(0) 编辑

group by

摘要：按照 group by 分组前面selecet 也不许加上这条很好理解,显示的表中必须要有分组条件字段吧例如按时间查询,而且粒度要一样即必须group by 后字段和 select 后加的字段完全一样 SELECT count(DISTINCT (wce.sid)) '总数', DATE_F 阅读全文

posted @ 2022-07-01 16:35 Dsad123FFFG6645 阅读(92) 评论(0) 推荐(0) 编辑

Dsad123FFFG

07 2022 档案

公告

搜索

常用链接

合集

随笔分类

随笔档案

相册

阅读排行榜

推荐排行榜