摘要:适用场景; 1.复制整个数据库及数据 2.hive元数据库的备份 案例:现将hive库的数据表及数据拷贝到hive_backup数据库中 方法一: 操作简便,便于执行 mysqldump hive -hhadoop01 -uroot -proot --add-drop-table | mysql h
阅读全文
摘要:有时候job.properties中会有两个定义参数 queueName=default launcher_queName=default(oozie,在Hadoop容量调度器配置文件进行指定),不指定默认为default。 适用情景将launcher队列和action队列分开。 配置oozie.l
阅读全文
摘要:HIVE升级: 1、停止Hive相关进程 ps -ef | grep hive | grep -v grep | awk '{print $2}' | xargs kill -9 2、hive元数据备份 方法一:mysqldump -htest-hadoop-2-21 -uroot -proot h
阅读全文
摘要:对于压缩算法的选择,我们倾向于对不同场景选择不同的压缩算法。 数仓一般被分为三层:ODS层: 源数据层 , 主要和数据源打交道原始日志一般采用 textFile存储 ,我们可以创建临时外部表,location指定原始日志位置,可以查询导入到ODS层,存储格式, 一般采用:ORC + ZLIB (从文
阅读全文
摘要:谓词下推操作,其实Hive也陆陆续续做了一定的优化操作,但是有些地方还需要我们自己人为的去进行优化, 1.在join操作中,针对一般的单表过滤条件,操作的时候尽量直接进行谓词下推操作(即把过滤条件直接放到子查询当中),不要把过滤条件在放到on后面的where条件中,防止查询的数据不准确性。 2.在j
阅读全文
摘要:Flink1.10集成Hive快速入门 Flink集成Hive之Hive Catalog与Hive Dialect--以Flink1.12
阅读全文
摘要:参考: Mysql自定义函数:身份证号码的真实性判定 mysql 身份证明号码 正则表达式
阅读全文
摘要:参考: 基于Flink1.11的SQL构建实时数仓探索实践 同上
阅读全文
摘要:在mysql中,不能通过嵌套子查询来直接删除或者修改记录,需要通过别名来指定嵌套子查询作为一个临时表。 参考: https://blog.csdn.net/feinifi/article/details/80280578
阅读全文
摘要:官网详解: https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/dev/table/connectors/jdbc.html https://ci.apache.org/projects/flink/flink-docs-r
阅读全文
摘要:技术人员的成长路径 程序员如何提高影响力 技术创业者如何突破创业瓶颈
阅读全文
摘要:示例1: 现要生成start_time('2020-11-01')到end_time("2020-11-30")之间的所有日期 select i, date_add('2020-11-01', pe.i) as dynamic_date ,'2020-11-01' as start_time, '2
阅读全文
摘要:参考官网: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC 参考: 更高的压缩比,更好的性能–使用ORC文件格式优化Hive 大数据:Hive - ORC 文件存储格式
阅读全文
摘要:https://github.com/danfengcao/binlog2sql
阅读全文
摘要:参考: https://www.jianshu.com/p/caa8d3adf1ba
阅读全文
摘要:Flink报错 Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/flink/streaming/api/environment/StreamExecutionEnvironment at csdn.xdoct
阅读全文
摘要:local模式:适用于本地开发和测试环境,占用的资源较少,部署简单 ,只需要部署JDK和flink即可达到功能开发和测试的目的。只需要一台主机即可。 standalone cluster:可以在测试环境功能验证完毕到版本发布的时候使用,进行性能验证。搭建需要ssh jdk和flink。至少需要3台主
阅读全文
摘要:Flink 集群搭建(基于flink on YARN模式) Flink HA高可以集群搭建(生产环境Flink Cluster On YARN)
阅读全文
摘要:文章参考: 数据治理及元数据概念相关 美团配送数据治理实践 数据埋点相关 读透华为数据之道 数据标准规范参考 数据库、数据湖、数据仓库、湖仓一体、智能湖仓,分别都是什么鬼? 相关数据治理工具 : nebula graph (图数据库) 作为技术人员还是需要会拆自己的任务,给出工作量评估。给活可以,代
阅读全文
摘要:设置动静态混合分区报错: FAILED: SemanticException [Error 10094]: Line 1:60 Dynamic partition cannot be the parent of a static partition 'xxx' 注意: 1.当设置动静态分区混合的时候
阅读全文
摘要:示例数据: des字段: 6ab4c|6ab46|6ab47|6ab48|6ab49|6abc0|6abc1|6abc2|6abc3|6abc4|6abcc|6abc6|6abc7type字段: 6df4c|6df46|6df47|6df48|6df49|6dfc0|6dfc1|6dfc2|6dfc
阅读全文
摘要:机器学习模型训练全流程! 数据从业者的自我修养
阅读全文