12 2021 档案

摘要:需求:spark 可以直接使用 textFile 读取 HDFS,但是不能判断 hdfs 文件是否存在,不过 pyspark 可以调用 java 程序,因此可以调用 FileSystem来实现: # coding=utf-8 from pyspark import SparkContext sc = 阅读全文
posted @ 2021-12-26 21:47 Hubery_Jun 阅读(1276) 评论(0) 推荐(0) 编辑
摘要:需求:一次插入多条,获取每条记录的自增 ID # coding=utf-8 import traceback import pymysql db = pymysql.connect( host='localhost', port=3306, user="root", password="pwd", 阅读全文
posted @ 2021-12-26 21:47 Hubery_Jun 阅读(1580) 评论(0) 推荐(0) 编辑
摘要:散列表(Hash table,也叫哈希表),是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做散列函数,存放记录的数组叫做散列表 # coding=utf-8 """ 需求:读取文件,每行为一段 j 阅读全文
posted @ 2021-12-26 21:46 Hubery_Jun 阅读(139) 评论(0) 推荐(0) 编辑
摘要:一、背景 待破解网站 问题:xpath 提取章节发现字体加密 待破解的 HTML: <dd class="col-sm-3"> <a href="/books/34/34652/18381474.html"> <i></i><i></i>章 醒 </a> </dd> 二、破解 破解方案 正则提取 阅读全文
posted @ 2021-12-12 13:53 Hubery_Jun 阅读(554) 评论(0) 推荐(0) 编辑
摘要:1. 安装 sbt cd /home/hadoop/apps mkdir sbt cd sbt cp ~/Download/sbt-1.3.8.tgz . // 解压 tar -zxvf sbt-1.3.8.tgz // 将 sbt-launch.jar 拷贝到外层目录 cp sbt/bin/sbt 阅读全文
posted @ 2021-12-05 20:41 Hubery_Jun 阅读(943) 评论(0) 推荐(0) 编辑
摘要:在 Spark 中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User-Defined-Function):即最基本的自定义函数,类似 to_char,to_date等 UDAF(User- Defined Aggregation Funcation):用户自定义聚合函数, 阅读全文
posted @ 2021-12-05 20:40 Hubery_Jun 阅读(327) 评论(0) 推荐(0) 编辑
摘要:Spark 的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统: 文件格式:Text 文件、Json 文件、csv 文件、Sequence 文件以及 Object 文件 文件系统:本地文件系统、HDFS、Hbase 以及数据库 1. 读写 text/hdfs 文件 text/hdfs 阅读全文
posted @ 2021-12-05 20:40 Hubery_Jun 阅读(58) 评论(0) 推荐(0) 编辑
摘要:Spark SQL 可以从多种数据源读取数据,也可以将数据写入多种数据源,如:json、txt、hdfs、parquet、jdbc、hive 等 1. 通用读取与保存 读取 // 方法一,若没有指定文件格式,则默认为 parquet,也可以通过修改 spark.sql.sources.default 阅读全文
posted @ 2021-12-05 20:39 Hubery_Jun 阅读(524) 评论(0) 推荐(0) 编辑
摘要:1. Spark SQL 概述 Spark SQL 是 spark 用来处理结构化数据的模块,它提供了2个编程抽象, 类似 Spark Core 中的 RDD: DataFrame DataSet 1.1 DataFrame 与 RDD 的区别 DataFrame 是一个分布式数据容器,类似于一张二 阅读全文
posted @ 2021-12-05 20:37 Hubery_Jun 阅读(136) 评论(0) 推荐(0) 编辑
摘要:1. 数据导入 1.1 向表中 load 数据 load 可以从本地服务器、hdfs 文件系统加载数据到数据表中: load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [par 阅读全文
posted @ 2021-12-05 20:32 Hubery_Jun 阅读(56) 评论(0) 推荐(0) 编辑
摘要:DDL 操作是用于操作对象和对象的属性,这种对象包括数据库本身,以及数据库对象,像:表、视图等等 1. 数据库 1.1 创建数据库 数据库在 HDFS 上的默认存储路径是 /user/hive/warehouse/*.db CREATE (DATABASE|SCHEMA) [IF NOT EXIST 阅读全文
posted @ 2021-12-05 20:31 Hubery_Jun 阅读(93) 评论(0) 推荐(0) 编辑
摘要:1. 基本数据类型 Hive数据类型 Java数据类型 长度 例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2byte有符号整数 20 INT int 4byte有符号整数 20 BIGINT long 8byte有符号整数 20 BOOLEAN boole 阅读全文
posted @ 2021-12-05 20:30 Hubery_Jun 阅读(256) 评论(0) 推荐(0) 编辑
摘要:1. 连接 有三种方式连接 hive: cli:直接输入 bin/hive 就可以进入 cli hiveserver2、beeline webui 1.1 hiveserver2/beeline 1、开启 hiveserver2 服务 // 前台运行,当 beeline 输入命令时,服务端会返回 O 阅读全文
posted @ 2021-12-05 20:29 Hubery_Jun 阅读(1067) 评论(0) 推荐(0) 编辑
摘要:1、下载 这里选择的版本是 0.9.2,下载地址 [hadoop@hadoop1 big_source]$ tar -zxvf apache-tez-0.9.2-bin.tar.gz [hadoop@hadoop1 big_source]$ mv apache-tez-0.9.2-bin tez-0 阅读全文
posted @ 2021-12-05 20:27 Hubery_Jun 阅读(480) 评论(0) 推荐(0) 编辑
摘要:1. hive 安装 hive 下载地址 1、下载解压: // 这里选择的是 1.2.1 的版本 [hadoop@hadoop1 apps]$ tar -zxvf apache-hive-1.2.1-bin.tar.gz // 修改名称为 hive [hadoop@hadoop1 apps]$ mv 阅读全文
posted @ 2021-12-05 20:25 Hubery_Jun 阅读(120) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示