把Hive 数据同步到Elasticsearch7.1.1的过程记录
由于开发工作的需要把数据从Hive导入到Elasticsearch,最开始使用了java写了个程序跑数据,80W的数据跑了2个小时左右,想想1000W数据那得要一天的时间,这效率到一次痛苦一次,就放弃了最初的想法,找到了用了hive的的方法,直接把数据导入到elasticsearch,以下是创建过程。
1,准备工作,准备jar包elasticsearch-hadoop-7.1.1,org.apache.commons.httpclient-3.1.jar
2,在hive中添加jar包。
3,建立一张和es连接的表hiveToEsTable.
1 CREATE EXTERNAL TABLE temp.hiveToEsTable ( 2 id, 3 uscc string, 4 remov_dt string, 5 lpr_cert_num string, 6 cont_tel string, 7 license_no string, 8 license_item string, 9 license_begin_dt string, 10 license_end_dt string, 11 license_fz_dt string, 12 license_certi_stat string, 13 remov_reas string, 14 KEY string 15 ) STORED BY 'org.elasticsearch.hadoop.hive.EsStorageHandler' TBLPROPERTIES ( 16 ##es的索引 17 'es.resource' = 'es_index', 18 ##es的id 19 'es.mapping.id' = 'id', 20 'es.mapping.date.rich' = 'false', 21 'es.write.operation' = 'upsert', 22 ##es所在的ip 23 'es.nodes' = '192.168.0.199', 24 ##es端口 25 'es.port' = '9200' 26 );
4.把要添加的es的数据插入到上面建立的表中。即可自动完成数据的同步操作。
INSERT overwrite TABLE temp.hiveToEsTable SELECT id, uscc string, remov_dt string, lpr_cert_num string, cont_tel string, license_no string, license_item string, license_begin_dt string, license_end_dt string, license_fz_dt string, license_certi_stat string, remov_reas string, KEY string FROM csum.sourceTable
5,导入80w的成果,只要470秒
在这次导入的过程中踩到的坑,由于Hive是以前就安装的,使用的是系统自带的Java环境,默认是/usr/lib/jdk,版本是jdk7,但是es7要求的是jdk,我就在原来系统上引入了一个jdk8,安装路径是在/usr/lib/java8,然后知道es的java环境到8,造成两边jdk版本不一致从而导入在创建关联时产生错误。解决方法,①可以把hive 的也指定到jdk8上来,但需要修改配置文件。②把自带的jdk替换成jdk8,es不需要配置jdk8的指定,使用的就是系统默认的。
本文来自博客园,作者:三丝柚,转载请注明原文链接:https://www.cnblogs.com/sansyou/p/13142109.html
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 25岁的心里话
· 闲置电脑爆改个人服务器(超详细) #公网映射 #Vmware虚拟网络编辑器
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 零经验选手,Compose 一天开发一款小游戏!
· 一起来玩mcp_server_sqlite,让AI帮你做增删改查!!