随笔分类 -  ETL

摘要:下载: https://www.cloudera.com/downloads/connectors/hive/jdbc/2-5-20.html 手册: https://community.cloudera.com/t5/Community-Articles/Connect-Oracle-SQL-De 阅读全文
posted @ 2020-05-20 17:39 po-A 阅读(644) 评论(0) 推荐(0) 编辑
摘要:HIVE分区,桶,倾斜概念 ref:https://edu.hellobi.com/course/93/play/lesson/2037 静态分区: 按日期来分区 动态分区: 商品二级类目分区(图书、数码等),是不确定的 set hive.exec.dynamic.partition 查看设置tru 阅读全文
posted @ 2020-05-17 17:17 po-A 阅读(392) 评论(0) 推荐(1) 编辑
摘要:HIVE表-标准建表语句解析,内/外表 REF: https://edu.hellobi.com/course/93/play/lesson/2035 hive> create external table test(id int); OK Time taken: 12.057 seconds hi 阅读全文
posted @ 2020-05-16 20:28 po-A 阅读(1026) 评论(0) 推荐(0) 编辑
摘要:REF: https://edu.hellobi.com/course/93/play/lesson/2034 VARCHAR 有局限性。不能作为UDF函数的返回值。 1)varchar-->string 2)直接创建generic udf函数 MAP:键,值 分别相同类型 这里的STRUCT和C语 阅读全文
posted @ 2020-05-16 20:18 po-A 阅读(177) 评论(0) 推荐(0) 编辑
摘要:REF: https://edu.hellobi.com/course/93/play/lesson/2033 配置: 如果是多主机模式,那么bind.host 记得把localhost改成master 知识点补充: [root@bigdata conf]# ps -ef UID PID PPID 阅读全文
posted @ 2020-05-16 19:06 po-A 阅读(556) 评论(0) 推荐(0) 编辑
摘要:REF:https://edu.hellobi.com/course/93/play/lesson/2032 HIVE CLI 你也可以命令行设置mapred.map.tasks=10, 这样起效优先级> hiveconf > .xml文件. -e : [root@bigdata conf]# hi 阅读全文
posted @ 2020-05-16 16:21 po-A 阅读(142) 评论(0) 推荐(0) 编辑
摘要:在Python中创建二维数组应该这样写: >>> C = [[0]*3 for i in range(4)]>>> C [[0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0]]>>> C[0][1] = 2>>> C[[0, 2, 0], [0, 0, 0], [0, 阅读全文
posted @ 2020-04-29 17:45 po-A 阅读(4450) 评论(0) 推荐(0) 编辑
摘要:重启记录,hadoop练习。 先熟悉一下语句: [root@bigdata hadoop]# $HADOOP_HOME/sbin/start-all.sh This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh St 阅读全文
posted @ 2020-04-13 20:48 po-A 阅读(4930) 评论(0) 推荐(0) 编辑
摘要:sqoop 运行 MYSQL密码输入错误的报错示例: 20/04/13 18:47:02 INFO sqoop.Sqoop: Running Sqoop version: 1.4.7 20/04/13 18:47:02 INFO manager.MySQLManager: Preparing to 阅读全文
posted @ 2020-04-13 18:50 po-A 阅读(485) 评论(0) 推荐(0) 编辑
摘要:[root@bigdata admin]# hadoop fs -ls / Found 4 items -rw-r--r-- 1 root staff 0 2020-04-11 18:40 /mytemp drwxr-xr-x - root staff 0 2020-04-11 20:37 /tia 阅读全文
posted @ 2020-04-11 22:04 po-A 阅读(464) 评论(0) 推荐(0) 编辑
摘要:ref:https://blog.csdn.net/infovisthinker/article/details/45370089 mr-jobhistory-daemon.sh命令是在${HADOOP_INSTALL}/sbin/目录下面。启动完了,用jps命令可以看到有JobHistorySer 阅读全文
posted @ 2020-04-11 17:15 po-A 阅读(526) 评论(0) 推荐(0) 编辑
摘要:ref: https://blog.csdn.net/xiaolinyouni/article/details/6943337 现在有一个表student 结构如下:id name class blood1 张三 1 A2 李四 2 C3 王五 1 B4 黄六 3 D5 朱八 2 C现在想查询出每个 阅读全文
posted @ 2020-04-01 13:28 po-A 阅读(406) 评论(0) 推荐(0) 编辑
摘要:REF: https://blog.csdn.net/weixin_30745641/article/details/101745371?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_rele 阅读全文
posted @ 2020-03-31 16:47 po-A 阅读(165) 评论(0) 推荐(0) 编辑
摘要:在进行ETL开发时,数据类型(Data Type)是最基础的,但也容易被忽略,楼主使用的SQL Server 版本是2012,用此博文记录,常用的SSIS数据类型和TSQL数据类型的映射。SSIS的数据类型,是指数据流组件使用的数据类型和变量的数据类型(Data Flow 和 Variable)。 阅读全文
posted @ 2020-03-31 15:36 po-A 阅读(1161) 评论(0) 推荐(0) 编辑
摘要:ref:https://www.cnblogs.com/cy163/archive/2008/10/16/1312920.html 2.3.4 外连接与条件配合使用当在内连接查询中加入条件是,无论是将它加入到join子句,还是加入到where子句,其效果是完全一样的,但对于外连接情况就不同了。当把条 阅读全文
posted @ 2020-03-31 14:18 po-A 阅读(647) 评论(0) 推荐(0) 编辑
摘要:IBM Datastage https://www.ibm.com/software/reports/compatibility/clarity-reports/report/html/softwareReqsForProduct?deliverableId=1267461078083&osPlat 阅读全文
posted @ 2020-03-27 20:08 po-A 阅读(312) 评论(0) 推荐(0) 编辑

Tushare大数据开放社区-免费提供各类金融数据和区块链数据 , 助力智能投资与创新型投资。

Python, Matlab, R, Web数据抽取学习交流。

点击右上角即可分享
微信分享提示