摘要:两篇不错的文章: 林家翘先生提醒青年学者:千万不要Garbage in,garbage out 不重视建模,Garbage In Garbage Out而已!
阅读全文
摘要:官方解释: 参考:journalnode的作用
阅读全文
摘要:个人实践(数据倾斜): 1.当大表join小表时,将小表转化为内存即可,即开启小表优化。 (set hive.auto.convert.join=true;) 2.尽量避免count(distinct xxx)的使用,如果存在重复行,则在子查询中先进行group by去重操作。 (set hive.
阅读全文
摘要:Error: java.io.IOException: Can't export data, please check failed map task logs at org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.j
阅读全文
摘要:项目管理实战 第一章:项目管理实战(引论) 第二章:项目管理实战(项目运行环境) 第三章:项目经理角色 为什么说你的数据团队需要一个项目管理型人才? 数据团队如何为自己争取资源 < 评论分析: 我最近也一直在思考数据团队价值方面的事情,我感觉这是绝大部分公司里大数据部门共同的痛点。在有权利分配资源的
阅读全文
摘要:我在滴滴数据分析岗的面试和实习经历 如何用数据分析驱动用户增长
阅读全文
摘要:一.Hadoop集群重启需要注意: 方法①:直接重启集群,重启完成后,需要执行如下命令: hadoop fsck / -openforwrite | egrep -v '^\.+$' | egrep "MISSING|OPENFORWRITE" | grep -o "/[^ ]*" | sed -e
阅读全文
摘要:测试九次后以失败而告终,望评论 2020-11-20 15:24:13,326 [uber-SubtaskRunner] ERROR org.apache.sqoop.tool.ImportTool - Encountered IOException running import job: java
阅读全文
摘要:sqoop command sqoop命令可以通过command和arg标签组成。 当使用command元素时,oozie将会按照空格切分命令,作为参数。因此当你使用query的时候,就不能用command了! 当使用arg的时候,每个arg都是一个参数。 所有的参数部分,都可以使用EL表达式。 参
阅读全文
摘要:常用配置: bin/sqoop import \ --connect jdbc:mysql://ip:3306/database?tinyInt1isBit=false \ --username xxx \ --password xxx \ --table xxx \ --xxx \ --num-m
阅读全文
摘要:Apriori两个重要原理: 1.如果一个集合是频繁项集,则它的所有子集都是频繁项集。假设一个集合{A,B}是频繁项集,则它的子集{A}, {B} 都是频繁项集。 2.如果一个集合不是频繁项集,则它的所有超集都不是频繁项集。假设集合{A}不是频繁项集,则它的任何超集如{A,B},{A,B,C}必定也
阅读全文
摘要:Hive数仓中建表尽量都采用压缩,采用压缩能极大的节省存储空间,减少成本消耗。 一般建表采用orc snappy压缩格式。如果load数据或者sqoop导入数据到hive中,不能直接使用压缩,可以建临时中间表,查询插入到压缩表中。总之,能节省成本就节省成本,压缩是个不错的选择。 同时也支持对表后期更
阅读全文
摘要:极限存储: 一般采用拉链表。 拉链表针对一个变化字段进行操作一个变化字段进行设计开始和结束时间。如果有多个字段进行更新变化,则需要设计多个开始和结束时间,复杂度比较高,或者进行拆表进行设计或者选择全量进行存储。 场景: 在数据仓库的数据模型设计过程中,经常会遇到下面这种表的设计: 有一些表的数据量很
阅读全文
摘要:在非高可用分布的集群的基础上进行搭建: 一般使用HDFS High Availability Using the Quorum Journal Manager此方式进行搭建。 Zookeeper部署: 1.tar -zxvf zookeeper-3.4.10.tar.gz -C ./ (解压zk到当
阅读全文
摘要:https://www.codewars.com/
阅读全文
摘要:<action name="xxx"> <hive xmlns="uri:oozie:hive-action:0.5"> <job-xml>${nameNode}/xxx/hive-site.xml</job-xml> <configuration> <property> <name>oozie.l
阅读全文
摘要:oozie Oozie工作流程定义是一个DAG(Directed Acyclical Graphs)图,它由控制流节点(Control Flow Nodes)或动作节点(Action Nodes)组成 官网:http://oozie.apache.org/ 一.功能模块: Workflow 顺序执行
阅读全文
摘要:Web界面: http://localhost:11000/oozie 检查配置文件是否有效: oozie validate workflow.xml 提交作业并让作业进入PREP状态: oozie job -oozie http://localhost:11000/oozie -config jo
阅读全文
摘要:示例:建表语句后设置 ENGINE=InnoDB DEFAULT CHARSET=utf8 总结来说: utf8 是mysql 挖的坑,utf8mb4才是真正的 utf8 ,一般实际生产,进行数据库迁移的时候转换成utf8mb4是比较好的 注:show create table 进行显示的时候还是显
阅读全文
摘要:pom依赖准备: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instanc
阅读全文
摘要:sqoop export 参数相关 注:使用sqoop不管从mysql导到hive还是hive导到mysql,参数的最后一定不能有空格,否则报错执行不成功! ps:--columns方式应可以解决mysql自增主键的问题 2.sqoop导出export数据到mysql sqoop中--update-
阅读全文
摘要:https://together.blog.csdn.net/article/details/102638347?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.add_param_
阅读全文
摘要:如果数据量较小的话,直接使用order by即可 。实际场景中一般先使用sort by再使用order by效率更高一些 。 sort by只能保证在reduce内有序 。 hive实现全排序: 1.要么用order by,但这样默认了reducer个数为1,效率低下。 2.要么用sort by+o
阅读全文
摘要:https://www.cnblogs.com/czlan91/articles/10805637.html http://shiyanjun.cn/archives/664.html (简单之美)
阅读全文