07 2022 档案

摘要:filter算子 功能:对RDD集合中的每个元素调用一次参数中的表达式对数据进行过滤,符合条件就保留,不符合就过滤 阅读全文
posted @ 2022-07-28 20:30 Dsad123FFFG6645 阅读(28) 评论(0) 推荐(0) 编辑
摘要:这是正则表达式,通过一定规则的表达式来匹配字符串用的 \s 表示空白字符,包括但不限于空格、回车(\r)、换行(\n)、tab或者叫水平制表符(\t)等,这个根据编码格式不同代表的含义也不一样,感兴趣可以搜索看一下 + 是重复修饰符,表示它前面与它紧邻的表达式格式相匹配的字符串至少出现一个,上不封顶 阅读全文
posted @ 2022-07-28 16:40 Dsad123FFFG6645 阅读(973) 评论(0) 推荐(0) 编辑
摘要:Python 读写文件和file对象_boshuzhang的博客-CSDN博客 阅读全文
posted @ 2022-07-28 16:22 Dsad123FFFG6645 阅读(28) 评论(0) 推荐(0) 编辑
摘要:Python中的 .join()用法_chixujohnny的博客-CSDN博客_.join() 阅读全文
posted @ 2022-07-28 15:46 Dsad123FFFG6645 阅读(41) 评论(0) 推荐(0) 编辑
摘要:asdasd 阅读全文
posted @ 2022-07-27 23:46 Dsad123FFFG6645 阅读(9) 评论(0) 推荐(0) 编辑
摘要:每一个map可能会产生大量的输出,combiner的作用就是在map端对输出先做一次合并,以减少传输到reducer的数据量。 combiner最基本是实现本地key的归并,combiner具有类似本地的reduce功能。 如果不用combiner,那么,所有的结果都是reduce完成,效率会相对低 阅读全文
posted @ 2022-07-25 20:04 Dsad123FFFG6645 阅读(117) 评论(0) 推荐(0) 编辑
摘要:C:\anaconda3\Lib\site-packages 阅读全文
posted @ 2022-07-22 16:16 Dsad123FFFG6645 阅读(141) 评论(0) 推荐(0) 编辑
摘要:# 定义一个列表 list1 = [1,2,3,4,5,6,7,8,9,10] # 将列表通过SparkContext将数据转换为一个分布式集合RDD inputRdd = sc.parallelize(list1)#如果有n个结点 那么数据就会分成n分 存在各个结点 # 将RDD中每个分区的数据进 阅读全文
posted @ 2022-07-21 21:22 Dsad123FFFG6645 阅读(73) 评论(0) 推荐(0) 编辑
摘要:>>> list1 = [1,2,3,4,5,6,7,8,9,10] >>> print(*list1) 1 2 3 4 5 6 7 8 9 10 >>> list2 = map(lambda x : x**2,list1) >>> print(*list2) 1 4 9 16 25 36 49 6 阅读全文
posted @ 2022-07-21 20:29 Dsad123FFFG6645 阅读(19) 评论(0) 推荐(0) 编辑
摘要:RDD的三个机制 - mls12 - 博客园 (cnblogs.com) persist 为了计算性能 cheakpoint 为了数据安全 阅读全文
posted @ 2022-07-20 16:52 Dsad123FFFG6645 阅读(42) 评论(0) 推荐(0) 编辑
摘要:rdd五大特性 (35条消息) RDD:五大特性_花和尚也有春天的博客-CSDN博客_rdd的五大特性 Spark之RDD的定义及五大特性 - |旧市拾荒| - 博客园 (cnblogs.com) 阅读全文
posted @ 2022-07-19 09:54 Dsad123FFFG6645 阅读(85) 评论(0) 推荐(0) 编辑
摘要:sss 阅读全文
posted @ 2022-07-13 17:59 Dsad123FFFG6645 阅读(6) 评论(0) 推荐(0) 编辑
摘要:opencv-python 3.4.14.53 pypi_0 pypipillow 9.0.1 py39hdc2b20a_0 defaultspyautogui 0.9.52 pypi_0 pypipyinstaller 5.0.1 pypi_0 pypipython 3.9.12 h6244533 阅读全文
posted @ 2022-07-13 11:54 Dsad123FFFG6645 阅读(10) 评论(0) 推荐(0) 编辑
摘要:pip install pyautogui安装失败的解决办法 - 知乎 (zhihu.com) 阅读全文
posted @ 2022-07-11 18:58 Dsad123FFFG6645 阅读(7) 评论(0) 推荐(0) 编辑
摘要:打开 prompt conda activate envname cd XXX pyinstaller -F XX.py 阅读全文
posted @ 2022-07-11 14:06 Dsad123FFFG6645 阅读(19) 评论(0) 推荐(0) 编辑
摘要:ctrl z y 撤销 前进 阅读全文
posted @ 2022-07-10 16:58 Dsad123FFFG6645 阅读(3) 评论(0) 推荐(0) 编辑
摘要:列举 conda env list 创建 # 语法conda create -n 虚拟环境名字 python=版本# 示例conda create -n bigdata01 python=3.7conda create -n bigdata02 python=3.9conda env list 切换 阅读全文
posted @ 2022-07-10 15:46 Dsad123FFFG6645 阅读(160) 评论(0) 推荐(0) 编辑
摘要:分布式技术 负载均衡(Load Balance) 将负载(工作任务)进行平衡、分摊到多个操作单元上进行运行 解决了单个无法处理所有任务,多个一起处理的问题 故障转移(Fail Over) 当活动的服务或应用意外终止时,快速启用冗余或备用的服务器、系统、硬件或者网络接替它们工作 故障转移系统也称之为容 阅读全文
posted @ 2022-07-09 16:41 Dsad123FFFG6645 阅读(229) 评论(0) 推荐(0) 编辑
摘要:hdfs http://hadoop01:9870/ yarn http://hadoop01:8088/ hue http://hadoop02:8889/hue cm http://hadoop01:7180/cmf 用户名密码:admin 阅读全文
posted @ 2022-07-08 23:05 Dsad123FFFG6645 阅读(8) 评论(0) 推荐(0) 编辑
摘要:(34条消息) REGEXP_REPLACE的使用方法__JohnnyChu的博客-CSDN博客_regexp_replace 阅读全文
posted @ 2022-07-08 22:47 Dsad123FFFG6645 阅读(34) 评论(0) 推荐(0) 编辑
摘要:窗口函数 Function OVER ([PARTITION BY <...>] [ORDER BY <....>] [<window_expression>]) --1、Function可以是下面分类中的任意一个 --聚合函数:比如sum、max、avg、max、min等 --排序函数:比如ran 阅读全文
posted @ 2022-07-08 16:39 Dsad123FFFG6645 阅读(34) 评论(0) 推荐(0) 编辑
摘要:【hive】count() count(if) count(distinct if) sum(if)的区别 - zzhangyuhang - 博客园 (cnblogs.com) 阅读全文
posted @ 2022-07-08 01:05 Dsad123FFFG6645 阅读(66) 评论(0) 推荐(0) 编辑
摘要:(34条消息) MySQL修改root密码步骤,解决解决mysqld skip-grant-tables失败问题_zrhsmile的博客-CSDN博客 mysql启动失败 1 C:\Program Files\MySQL\MySQL Server 8.0\bin>mysqld --remove my 阅读全文
posted @ 2022-07-07 18:41 Dsad123FFFG6645 阅读(15) 评论(0) 推荐(0) 编辑
摘要:用sqoop脚本从mysql 导入到hive 建立ods层 #将mysql 中第一张表导入hive 中的ods层/usr/bin/sqoop import "-Dorg.apache.sqoop.splitter.allow_text_splitter=true" \--connect 'jdbc: 阅读全文
posted @ 2022-07-06 00:04 Dsad123FFFG6645 阅读(22) 评论(0) 推荐(0) 编辑
摘要:(34条消息) hive 中的location_夜曲章的博客-CSDN博客_hive location 理解不能 阅读全文
posted @ 2022-07-02 21:24 Dsad123FFFG6645 阅读(16) 评论(0) 推荐(0) 编辑
摘要:1 在mysql 中建库 CREATE DATABASE yp_olap DEFAULT CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci; 2 在presto 中建mysql的表 DROP TABLE mysql.yp_olap.test;CREAT 阅读全文
posted @ 2022-07-02 19:56 Dsad123FFFG6645 阅读(39) 评论(0) 推荐(0) 编辑
摘要:create table itcast_ods.tmp as SELECT count(ip) c, ip FROM itcast_ods.web_acc_info GROUP BY ip order by c desc 几种保存Hive查询结果的方法 - 又尘埃 - 博客园 (cnblogs.co 阅读全文
posted @ 2022-07-01 20:17 Dsad123FFFG6645 阅读(388) 评论(0) 推荐(0) 编辑
摘要:hive 建表 1字符串 用string 因为varchar容易中文乱码 2数值可以用int 但是后面不能加括号 int(12)类似这样 Hive 时间数据类型 - 简书 (jianshu.com) 阅读全文
posted @ 2022-07-01 18:20 Dsad123FFFG6645 阅读(26) 评论(0) 推荐(0) 编辑
摘要:SQL DEFAULT 约束 DEFAULT 约束用于向列中插入默认值。 如果没有规定其他的值,那么会将默认值添加到所有的新记录。 CREATE TABLE 时的 SQL DEFAULT 约束 阅读全文
posted @ 2022-07-01 18:13 Dsad123FFFG6645 阅读(20) 评论(0) 推荐(0) 编辑
摘要:按照 group by 分组 前面selecet 也不许加上这条 很好理解,显示的表中必须要有分组条件字段吧 例如按时间查询,而且粒度要一样 即必须group by 后字段和 select 后加的字段完全一样 SELECT count(DISTINCT (wce.sid)) '总数', DATE_F 阅读全文
posted @ 2022-07-01 16:35 Dsad123FFFG6645 阅读(92) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示