小生艺术大数据攻略

2018年8月17日

hive 学习系列之七 hive 常用数据清洗函数

摘要: 1,case when 的利用,清洗诸如评分等的内容,用例如下。 case when new.comment_grade = '五星商户' then 50 when new.comment_grade = '准五星商户' then 45 when new.comment_grade = '四星商户' 阅读全文

posted @ 2018-08-17 17:49 小生艺术 阅读(6567) 评论(0) 推荐(1) 编辑

2018年8月14日

hive 学习系列六 hive 去重办法的思考

摘要: 方法1,建立临时表,利用hive的collect_set 进行去重。 2,方法2, 利用row_number 去重 比如,我有一大堆的表格, 表格内容大多类似,只是有些许差别。 现在的需求是把我要统计所有的表格中,都有哪些字段,也就是把所有的表格整合成一张大表 则可以利用row_number 进行去 阅读全文

posted @ 2018-08-14 16:45 小生艺术 阅读(3997) 评论(0) 推荐(0) 编辑

elasticsearch 5.x 系列之三 mapping 映射的时候的各个字段的设置

摘要: 首先看来创建一个mapping 来show show: 二、show 看过了,来看一下elasticsearch 支持的数据类型。 阅读全文

posted @ 2018-08-14 16:44 小生艺术 阅读(1462) 评论(0) 推荐(0) 编辑

2018年7月27日

elasticsearch 5.x 系列之六 文档索引,更新,查询,删除流程

摘要: 一、elasticsearch index 索引流程 步骤: 客户端向Node1 发送索引文档请求 Node1 根据文档ID(_id字段)计算出该文档应该属于shard0,然后请求路由到Node3的P0分片上。 Node3在P0上执行了请求。如果请求成功,则将请求并行的路由至Node1,Node2的 阅读全文

posted @ 2018-07-27 12:06 小生艺术 阅读(691) 评论(0) 推荐(0) 编辑

elasticsearch 5.x 系列之四(索引模板的使用,详细得不要不要的)

摘要: 1,首先看一下下面这个索引模板 2,关于索引模板的删除和查看。 3,哦了,看完这个简单的模板之后,我们来注意看一下以下几点 注意3.1:不要在一个索引中定义多个type。 6.X版本已经不支持,7.X版本彻底不支持。 扩展问题:5.X版本的父子文档实际实现中是一个索引中定义了多个type,到了6.X 阅读全文

posted @ 2018-07-27 11:32 小生艺术 阅读(3305) 评论(0) 推荐(0) 编辑

elasticsearch 5.x 系列之五 数据导入导出

摘要: 一、首先给大家发一个福利,分享一个elasticsearch 数据导出工具。 esm github 源码地址: https://github.com/medcl/esm 下载编译好的对应elasticsearch 的esm: 下载地址: https://github.com/medcl/esm/re 阅读全文

posted @ 2018-07-27 11:31 小生艺术 阅读(5570) 评论(1) 推荐(0) 编辑

2018年7月24日

hive 学习系列五(hive 和elasticsearch 的交互,很详细哦,我又来吹liubi了)

摘要: hive 操作elasticsearch 一,从hive 表格向elasticsearch 导入数据 1,首先,创建elasticsearch 索引,索引如下 2,查看elasticsearch版本,下载相应的elasticsearch hive hadoop jar 包 可以用如下命令查看elas 阅读全文

posted @ 2018-07-24 19:37 小生艺术 阅读(6622) 评论(0) 推荐(0) 编辑

hive 学习系列四(用户自定义函数)

摘要: 如果入参是简单的数据类型,直接继承UDF,实现一个或者多个evaluate 方法。 具体流程如下: 1,实现大写字符转换成小写字符的UDF 2,打包成jar 包。 建立maven 项目,使用maven 打包。 这里打包成的jar 包是,hiveudf 1.0.0.jar 3,上传到hdfs 路径上。 阅读全文

posted @ 2018-07-24 19:35 小生艺术 阅读(1995) 评论(0) 推荐(0) 编辑

hive 学习系列三(表格的创建create-table)

摘要: 表格创建: 语法 说明 上述的建表语法,有些语法笔者不是很懂,希望各位不吝赐教。 常见例子: 例子一 例子二 struct 使用 以下是truncate 用来进行表格的清空 一个有用的数据清空工具 删除表格 修改表 重命名表 改变表格属性 改变表格评论 对表格进行分桶 添加分区 重命名分区 删除分区 阅读全文

posted @ 2018-07-24 19:33 小生艺术 阅读(6960) 评论(0) 推荐(0) 编辑

hive 学习系列二(数据库的创建删除修改) 拿走,不谢。

摘要: database 相当于一个目录或者命名空间,用来更好地进行表的管理 在hdfs 的目录位置大致如下: 创建语法: 例子: 删除语法 注意,默认drop table 时候是restrict 的,即数据库里面存在表格的时候,如果删除,会报错。 需要强制删除,请加上cascade 修改 语法: data 阅读全文

posted @ 2018-07-24 19:32 小生艺术 阅读(2421) 评论(0) 推荐(0) 编辑

导航