2021 年 12月随笔档案 - Hubery_Jun

【大数据】PySpark 使用 FileSystem 操作 HDFS

摘要：需求：spark 可以直接使用 textFile 读取 HDFS，但是不能判断 hdfs 文件是否存在，不过 pyspark 可以调用 java 程序，因此可以调用 FileSystem来实现： # coding=utf-8 from pyspark import SparkContext sc = 阅读全文

posted @ 2021-12-26 21:47 Hubery_Jun 阅读(1276) 评论(0) 推荐(0) 编辑

【Python】插入记录并获取其自增ID（PyMysql）

摘要：需求：一次插入多条，获取每条记录的自增 ID # coding=utf-8 import traceback import pymysql db = pymysql.connect( host='localhost', port=3306, user="root", password="pwd", 阅读全文

posted @ 2021-12-26 21:47 Hubery_Jun 阅读(1580) 评论(0) 推荐(0) 编辑

【Python】散列的一种实现

摘要：散列表（Hash table，也叫哈希表），是根据关键码值(Key value)而直接进行访问的数据结构。也就是说，它通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度。这个映射函数叫做散列函数，存放记录的数组叫做散列表 # coding=utf-8 """ 需求：读取文件，每行为一段 j 阅读全文

posted @ 2021-12-26 21:46 Hubery_Jun 阅读(139) 评论(0) 推荐(0) 编辑

爬虫之字体解密

摘要：一、背景待破解网站问题：xpath 提取章节发现字体加密待破解的 HTML： <dd class="col-sm-3"> <a href="/books/34/34652/18381474.html"> <i></i><i></i>章醒 </a> </dd> 二、破解破解方案正则提取阅读全文

posted @ 2021-12-12 13:53 Hubery_Jun 阅读(554) 评论(0) 推荐(0) 编辑

sbt 编译打包（六）

摘要：1. 安装 sbt cd /home/hadoop/apps mkdir sbt cd sbt cp ~/Download/sbt-1.3.8.tgz . // 解压 tar -zxvf sbt-1.3.8.tgz // 将 sbt-launch.jar 拷贝到外层目录 cp sbt/bin/sbt 阅读全文

posted @ 2021-12-05 20:41 Hubery_Jun 阅读(943) 评论(0) 推荐(0) 编辑

Spark SQL UDF 函数（四）

摘要：在 Spark 中，也支持Hive中的自定义函数。自定义函数大致可以分为三种： UDF(User-Defined-Function)：即最基本的自定义函数，类似 to_char,to_date等 UDAF（User- Defined Aggregation Funcation）：用户自定义聚合函数，阅读全文

posted @ 2021-12-05 20:40 Hubery_Jun 阅读(327) 评论(0) 推荐(0) 编辑

数据读取保存（五）

摘要：Spark 的数据读取及数据保存可以从两个维度来作区分：文件格式以及文件系统：文件格式：Text 文件、Json 文件、csv 文件、Sequence 文件以及 Object 文件文件系统：本地文件系统、HDFS、Hbase 以及数据库 1. 读写 text/hdfs 文件 text/hdfs 阅读全文

posted @ 2021-12-05 20:40 Hubery_Jun 阅读(58) 评论(0) 推荐(0) 编辑

Spark SQL 数据源（三）

摘要：Spark SQL 可以从多种数据源读取数据，也可以将数据写入多种数据源，如：json、txt、hdfs、parquet、jdbc、hive 等 1. 通用读取与保存读取 // 方法一，若没有指定文件格式，则默认为 parquet，也可以通过修改 spark.sql.sources.default 阅读全文

posted @ 2021-12-05 20:39 Hubery_Jun 阅读(524) 评论(0) 推荐(0) 编辑

Spark SQL （二）

摘要：1. Spark SQL 概述 Spark SQL 是 spark 用来处理结构化数据的模块，它提供了2个编程抽象, 类似 Spark Core 中的 RDD： DataFrame DataSet 1.1 DataFrame 与 RDD 的区别 DataFrame 是一个分布式数据容器，类似于一张二阅读全文

posted @ 2021-12-05 20:37 Hubery_Jun 阅读(136) 评论(0) 推荐(0) 编辑

hive 之 DML 操作（六）

摘要：1. 数据导入 1.1 向表中 load 数据 load 可以从本地服务器、hdfs 文件系统加载数据到数据表中： load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [par 阅读全文

posted @ 2021-12-05 20:32 Hubery_Jun 阅读(56) 评论(0) 推荐(0) 编辑

hive 之 DDL 操作（五）

摘要：DDL 操作是用于操作对象和对象的属性，这种对象包括数据库本身，以及数据库对象，像：表、视图等等 1. 数据库 1.1 创建数据库数据库在 HDFS 上的默认存储路径是 /user/hive/warehouse/*.db CREATE (DATABASE|SCHEMA) [IF NOT EXIST 阅读全文

posted @ 2021-12-05 20:31 Hubery_Jun 阅读(93) 评论(0) 推荐(0) 编辑

hive 数据类型（四）

摘要：1. 基本数据类型 Hive数据类型 Java数据类型长度例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2byte有符号整数 20 INT int 4byte有符号整数 20 BIGINT long 8byte有符号整数 20 BOOLEAN boole 阅读全文

posted @ 2021-12-05 20:30 Hubery_Jun 阅读(256) 评论(0) 推荐(0) 编辑

hive 连接及使用（三）

摘要：1. 连接有三种方式连接 hive： cli：直接输入 bin/hive 就可以进入 cli hiveserver2、beeline webui 1.1 hiveserver2/beeline 1、开启 hiveserver2 服务 // 前台运行，当 beeline 输入命令时，服务端会返回 O 阅读全文

posted @ 2021-12-05 20:29 Hubery_Jun 阅读(1067) 评论(0) 推荐(0) 编辑

hive 更换 tez 引擎（二）

摘要：1、下载这里选择的版本是 0.9.2，下载地址 [hadoop@hadoop1 big_source]$ tar -zxvf apache-tez-0.9.2-bin.tar.gz [hadoop@hadoop1 big_source]$ mv apache-tez-0.9.2-bin tez-0 阅读全文

posted @ 2021-12-05 20:27 Hubery_Jun 阅读(480) 评论(0) 推荐(0) 编辑

hive 安装部署（一）

摘要：1. hive 安装 hive 下载地址 1、下载解压： // 这里选择的是 1.2.1 的版本 [hadoop@hadoop1 apps]$ tar -zxvf apache-hive-1.2.1-bin.tar.gz // 修改名称为 hive [hadoop@hadoop1 apps]$ mv 阅读全文

posted @ 2021-12-05 20:25 Hubery_Jun 阅读(120) 评论(0) 推荐(0) 编辑

Hubery_Jun

12 2021 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

相册

阅读排行榜

评论排行榜

推荐排行榜

最新评论