05 2018 档案

摘要:Hive命令行中可以使用 add file /path/python/script.py 来添加脚本 Hive会把查询结果输入到标准输入, 在map阶段Python从标准输入中读取, 逐行处理, 返回结果 比如 select TRANSFORM(col1, col2) using 'python s 阅读全文
posted @ 2018-05-31 19:10 爱知菜 阅读(25) 评论(0) 推荐(0) 编辑
摘要:Hive必须以service模式运行: hive --service hiveserver2 hiveserver2 --hiveconf hive.server2.thrift.port=20001 Java maven 项目的pom.xml中加上: <dependency> <groupId>o 阅读全文
posted @ 2018-05-25 17:58 爱知菜 阅读(97) 评论(0) 推荐(0) 编辑
摘要:Java的类中可以定义静态代码块, 每次我们使用hive的create [temporary] function语句时,会调用UDF中的静态代码块. 静态代码块是类加载时用到调用的. UDF并不是每有一行记录就会实例化一次, 而是复用的. Hive会在HiveQL语句运行之初就实例化若干个UDF的实 阅读全文
posted @ 2018-05-25 17:52 爱知菜 阅读(20) 评论(0) 推荐(0) 编辑
摘要:GenericUDF提供了更好的参数和返回值检查, 效率更高, 适合处理HIVE中的复杂数据类型 把字符串变成词向量, 例如: "This is a sentence"->{'This':1, 'is':1, 'a':1, 'sentence':1} 对于外部依赖, 为了让集群的每个节点都能执行ja 阅读全文
posted @ 2018-05-23 18:14 爱知菜 阅读(50) 评论(0) 推荐(0) 编辑
摘要:安装Maven (https://blog.csdn.net/rav009/article/details/79469303)安装Eclipse安装Eclipse的Maven插件 m2e 使用Eclipse创建Maven项目 Group ID一般是org.yourname.projectname, 阅读全文
posted @ 2018-05-18 17:37 爱知菜 阅读(76) 评论(0) 推荐(0) 编辑
摘要:1. namenode is in safe mode, 使用下面命令行离开safe mode: hadoop dfsadmin -safemode leave 2. Container [pid=22826,containerID=container_1526436506350_0003_01_0 阅读全文
posted @ 2018-05-16 13:24 爱知菜 阅读(40) 评论(0) 推荐(0) 编辑
摘要:把windows的日志复制到linux目录下, 可以先用file,head,tail等命令查看文件概况. 使用dos2unix命令将文件转成unix格式 由于HIVE的时间类型只支持timestamp(hive中timestamp的格式是"YYYY-MM-DD HH:MM:SS"), 所以我们要把日 阅读全文
posted @ 2018-05-15 11:58 爱知菜 阅读(19) 评论(0) 推荐(0) 编辑
摘要:扩容 VBoxManage.exe 这个exe文件可以对各类虚拟机的vdi, vmdk文件进行操作 在CMD中执行 # 查看信息 "D:\Program Files\Oracle\VirtualBox\VBoxManage.exe" showhdinfo "E:\Ubuntu Virtual Dis 阅读全文
posted @ 2018-05-11 21:02 爱知菜 阅读(22) 评论(0) 推荐(0) 编辑
摘要:复制驱动: 首先在Hive的安装目录里找到Hive的jdbc jar文件. 比如 hive/apache-hive-2.3.2-bin/jdbc/hive-jdbc-2.3.2-standalone.jar. 复制这个jar文件到Kettle的lib目录下, 比如 /Kettle/data-inte 阅读全文
posted @ 2018-05-10 18:28 爱知菜 阅读(53) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示