hdfs-hive - 随笔分类 - 落日峡谷

从hdfs导入数据到hive表

摘要：在文件已经导入（存入）hdfs之后，需要建表进行映射才可以show tables。现在假设文件已导入该hdfs目录： /apps/hive/warehouse/db_name.db/tb_name （这里也可能是其他文件，如csv，txt等，如：/username/test/test.txt）方阅读全文

posted @ 2020-12-06 22:05 落日峡谷阅读(6820) 评论(0) 推荐(0) 编辑

linux使用shell脚本定时执行python代码

摘要：在linux上设置定时任务或者使用shell脚本都可以执行python代码；其中定时任务的设置在命令 crontab -e 中可以查看和设置。假设目前有一个python脚本： import numpy as np print(' ') aa = [[1,2,3],[4,5,6]] print('a 阅读全文

posted @ 2020-08-30 22:05 落日峡谷阅读(10632) 评论(0) 推荐(0) 编辑

hive的lateral view explode 功能

摘要：最近遇到一个神奇的hive功能：lateral view explode，感觉与Mysql中的group concat相反，将原本在一起的数据拆分成多行形成虚拟表，再与原表进行笛卡尔积。一般模式：select column_A,column_B,tmp_table.tmp_column from 阅读全文

posted @ 2020-08-30 00:17 落日峡谷阅读(9891) 评论(0) 推荐(0) 编辑

hive中实现group_concat

摘要：mysql中的group_concat分组连接功能相当强大，可以先分组再连接成字符串，还可以进行排序连接。但是hive中并没有这个函数，那么hive中怎么实现这个功能呢？这里要用到：concat_ws函数和collect_list、collect_set 函数。 1. 建立测试表（无分区表）： c 阅读全文

posted @ 2020-08-29 23:16 落日峡谷阅读(18676) 评论(0) 推荐(3) 编辑

hive的create、insert、drop、truncate

摘要：1. hive建表：create create table if not exists db_name.test_tb(id string, name string, age string, province string, score string)partitioned by (str_date 阅读全文

posted @ 2020-04-22 22:28 落日峡谷阅读(1590) 评论(0) 推荐(0) 编辑

hive的分组排序 row_number

摘要：hive中可用于分组排序的函数主要有：row_number，rank，dense_rank，它们分别有不同的特点，关键词主要用到：partition by和order by等。【1】row_number：排序时给每一行分配唯一的顺序，相同行顺序也不同 select age, grade, row_ 阅读全文

posted @ 2020-04-07 21:17 落日峡谷阅读(6238) 评论(0) 推荐(0) 编辑

hive的日期和时间

摘要：类似于mysql，hive中也有处理日期和时间的方法。 1. 日期转时间戳：unix_timestamp select unix_timestamp('2020/03/25 15:54:24', 'yyyy/MM/dd HH:mm:ss') from db_name.tb_name # 如果不写第二阅读全文

posted @ 2020-04-06 15:13 落日峡谷阅读(5412) 评论(0) 推荐(0) 编辑

pyspark将DataFrame转成table以及操作sql语句

摘要：pyspark可以直接将DataFrame格式数据转成table，也可在程序中执行sql代码。 1. 首先导入库和环境，os.environ在系统中有多个python版本时需要设置 import os from pyspark import SparkContext, SparkConf from 阅读全文

posted @ 2020-03-14 20:33 落日峡谷阅读(5757) 评论(0) 推荐(0) 编辑

pyspark读取textfile形成DataFrame以及查询表的属性信息

摘要：pyspark可用于读取textfile格式的hive表格。 1. 查看hive表的属性方法（在hive或者spark-sql命令行均可）：查询建表信息： show create table database_name.table_name; 查询表的属性信息 (可看到表的格式信息例如，Input 阅读全文

posted @ 2020-03-14 19:28 落日峡谷阅读(4836) 评论(0) 推荐(1) 编辑

hive的lower，upper，length，concat，lpad，rpad，cast，split函数简述

摘要：hive的部分字符串函数，包括： 1. 小写：lower 或者 lcase 函数 select lower('App') #结果是：app select lcase('App') 2. upper 或者 ucase 函数 select upper('App') #结果是：APP select uca 阅读全文

posted @ 2020-02-29 20:03 落日峡谷阅读(8346) 评论(0) 推荐(0) 编辑

hdfs显示、查看、下载、上传、删除文件操作

摘要：linux环境假设hdfs安装路径（例如是）： /usr/hdp/hadoop/bin/hdfs 1. -ls 列出当前目录下的文件、文件夹 /usr/hdp/hadoop/bin/hdfs dfs -ls /apps/hive/warehouse/my_home 2. 查看文件，例如hive表的阅读全文

posted @ 2020-01-18 19:56 落日峡谷阅读(4071) 评论(0) 推荐(0) 编辑

Pyspark中遇到的 java.io.IOException: Not a file 和 pyspark.sql.utils.AnalysisException: 'Table or view not found

摘要：最近执行pyspark时，直接读取hive里面的数据，经常遇到几个问题： 1. java.io.IOException: Not a file —— 然而事实上文件是存在的，是 hdfs 的默认路径出了错，需要配置 --files 和 --conf。 2. pyspark.sql.utils.Ana 阅读全文

posted @ 2019-12-17 22:42 落日峡谷阅读(5761) 评论(1) 推荐(0) 编辑

hive之建立分区表和分区

摘要：1. 建立分区表 create table 单分区表：其中分区字段是partdate，注意分区字段不能和表字段一样，否则会报重复的错 create table test_t2(words string,frequency string) partitioned by (partdate string 阅读全文

posted @ 2019-11-17 21:36 落日峡谷阅读(29116) 评论(0) 推荐(0) 编辑

FAILED: SemanticException Unable to determine if hdfs://tmaster:8020/user/root/words.db/test_t2 is encrypted

摘要：使用hive时，建立数据库，建表，写数据；读数据：select * from test_t2; 报错SemanticException 原因：建表时使用了其他路径，或者在另一个路径的数据库（建立数据库时指定了location参数：create database words_db location 阅读全文

posted @ 2019-10-31 16:42 落日峡谷阅读(2064) 评论(0) 推荐(0) 编辑

落日峡谷

随笔分类 - hdfs-hive

从hdfs导入数据到hive表

linux使用shell脚本定时执行python代码

hive的lateral view explode 功能

hive中实现group_concat

hive的create、insert、drop、truncate

hive的分组排序 row_number

hive的日期和时间

pyspark将DataFrame转成table以及操作sql语句

pyspark读取textfile形成DataFrame以及查询表的属性信息

hive的lower，upper，length，concat，lpad，rpad，cast，split函数简述

hdfs显示、查看、下载、上传、删除文件操作

Pyspark中遇到的 java.io.IOException: Not a file 和 pyspark.sql.utils.AnalysisException: 'Table or view not found

hive之建立分区表和分区

FAILED: SemanticException Unable to determine if hdfs://tmaster:8020/user/root/words.db/test_t2 is encrypted

公告

导航

统计

搜索

常用链接

我的标签

积分与排名

随笔分类 (171)

随笔档案 (150)

阅读排行榜

评论排行榜

推荐排行榜

最新评论