RICH-ATONE

11 2020 档案

Garbage In Garbage Out
摘要:两篇不错的文章: 林家翘先生提醒青年学者:千万不要Garbage in,garbage out 不重视建模,Garbage In Garbage Out而已! 阅读全文

posted @ 2020-11-30 11:41 RICH-ATONE 阅读(242) 评论(0) 推荐(0) 编辑

JournalNode的作用
摘要:官方解释: 参考:journalnode的作用 阅读全文

posted @ 2020-11-27 15:38 RICH-ATONE 阅读(534) 评论(0) 推荐(0) 编辑

SecondaryNameNode 的作用
摘要:SecondaryNameNode 的作用 阅读全文

posted @ 2020-11-27 14:52 RICH-ATONE 阅读(157) 评论(0) 推荐(0) 编辑

Hive Map数据长尾问题
摘要:个人实践(数据倾斜): 1.当大表join小表时,将小表转化为内存即可,即开启小表优化。 (set hive.auto.convert.join=true;) 2.尽量避免count(distinct xxx)的使用,如果存在重复行,则在子查询中先进行group by去重操作。 (set hive. 阅读全文

posted @ 2020-11-25 18:37 RICH-ATONE 阅读(779) 评论(0) 推荐(0) 编辑

Hive基本操作
摘要:Hive基本操作 阅读全文

posted @ 2020-11-25 17:38 RICH-ATONE 阅读(148) 评论(0) 推荐(0) 编辑

Hadoop中NameNode的工作机制
摘要:Hadoop中NameNode的工作机制 阅读全文

posted @ 2020-11-24 18:38 RICH-ATONE 阅读(123) 评论(0) 推荐(0) 编辑

技术架构分析与架构分析
摘要:实时数仓搭建与实时分析调研 阅读全文

posted @ 2020-11-23 18:57 RICH-ATONE 阅读(158) 评论(0) 推荐(0) 编辑

Sqoop报错Caused by: com.mysql.jdbc.exceptions.jdbc4.MySQLTransactionRollbackException: Deadlock found when trying to get lock; try restarting transaction
摘要:Error: java.io.IOException: Can't export data, please check failed map task logs at org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.j 阅读全文

posted @ 2020-11-23 15:27 RICH-ATONE 阅读(2253) 评论(2) 推荐(0) 编辑

项目管理PMP相关
摘要:项目管理实战 第一章:项目管理实战(引论) 第二章:项目管理实战(项目运行环境) 第三章:项目经理角色 为什么说你的数据团队需要一个项目管理型人才? 数据团队如何为自己争取资源 < 评论分析: 我最近也一直在思考数据团队价值方面的事情,我感觉这是绝大部分公司里大数据部门共同的痛点。在有权利分配资源的 阅读全文

posted @ 2020-11-22 17:06 RICH-ATONE 阅读(137) 评论(0) 推荐(0) 编辑

数据分析相关
摘要:我在滴滴数据分析岗的面试和实习经历 如何用数据分析驱动用户增长 阅读全文

posted @ 2020-11-20 18:36 RICH-ATONE 阅读(128) 评论(0) 推荐(0) 编辑

Hadoop委任和解除节点
摘要:一.Hadoop集群重启需要注意: 方法①:直接重启集群,重启完成后,需要执行如下命令: hadoop fsck / -openforwrite | egrep -v '^\.+$' | egrep "MISSING|OPENFORWRITE" | grep -o "/[^ ]*" | sed -e 阅读全文

posted @ 2020-11-20 16:49 RICH-ATONE 阅读(151) 评论(0) 推荐(0) 编辑

Oozie调度Sqoop报错
摘要:测试九次后以失败而告终,望评论 2020-11-20 15:24:13,326 [uber-SubtaskRunner] ERROR org.apache.sqoop.tool.ImportTool - Encountered IOException running import job: java 阅读全文

posted @ 2020-11-20 15:29 RICH-ATONE 阅读(278) 评论(0) 推荐(0) 编辑

Oozie调度Sqoop的两种方式
摘要:sqoop command sqoop命令可以通过command和arg标签组成。 当使用command元素时,oozie将会按照空格切分命令,作为参数。因此当你使用query的时候,就不能用command了! 当使用arg的时候,每个arg都是一个参数。 所有的参数部分,都可以使用EL表达式。 参 阅读全文

posted @ 2020-11-20 14:50 RICH-ATONE 阅读(407) 评论(0) 推荐(0) 编辑

MySql数据表直接到Hive表操作
摘要:常用配置: bin/sqoop import \ --connect jdbc:mysql://ip:3306/database?tinyInt1isBit=false \ --username xxx \ --password xxx \ --table xxx \ --xxx \ --num-m 阅读全文

posted @ 2020-11-20 12:04 RICH-ATONE 阅读(873) 评论(0) 推荐(0) 编辑

Apriori算法原理与实现
摘要:Apriori两个重要原理: 1.如果一个集合是频繁项集,则它的所有子集都是频繁项集。假设一个集合{A,B}是频繁项集,则它的子集{A}, {B} 都是频繁项集。 2.如果一个集合不是频繁项集,则它的所有超集都不是频繁项集。假设集合{A}不是频繁项集,则它的任何超集如{A,B},{A,B,C}必定也 阅读全文

posted @ 2020-11-19 22:34 RICH-ATONE 阅读(600) 评论(0) 推荐(0) 编辑

Hive表压缩
摘要:Hive数仓中建表尽量都采用压缩,采用压缩能极大的节省存储空间,减少成本消耗。 一般建表采用orc snappy压缩格式。如果load数据或者sqoop导入数据到hive中,不能直接使用压缩,可以建临时中间表,查询插入到压缩表中。总之,能节省成本就节省成本,压缩是个不错的选择。 同时也支持对表后期更 阅读全文

posted @ 2020-11-19 22:28 RICH-ATONE 阅读(1200) 评论(0) 推荐(0) 编辑

HIVE拉链表示例
摘要:极限存储: 一般采用拉链表。 拉链表针对一个变化字段进行操作一个变化字段进行设计开始和结束时间。如果有多个字段进行更新变化,则需要设计多个开始和结束时间,复杂度比较高,或者进行拆表进行设计或者选择全量进行存储。 场景: 在数据仓库的数据模型设计过程中,经常会遇到下面这种表的设计: 有一些表的数据量很 阅读全文

posted @ 2020-11-18 23:13 RICH-ATONE 阅读(312) 评论(0) 推荐(1) 编辑

Title
摘要:数据运营手册 阅读全文

posted @ 2020-11-16 18:39 RICH-ATONE 阅读(102) 评论(0) 推荐(0) 编辑

Hadoop的HA的搭建
摘要:在非高可用分布的集群的基础上进行搭建: 一般使用HDFS High Availability Using the Quorum Journal Manager此方式进行搭建。 Zookeeper部署: 1.tar -zxvf zookeeper-3.4.10.tar.gz -C ./ (解压zk到当 阅读全文

posted @ 2020-11-16 00:04 RICH-ATONE 阅读(294) 评论(0) 推荐(0) 编辑

Make A Question
摘要:https://www.codewars.com/ 阅读全文

posted @ 2020-11-12 18:27 RICH-ATONE 阅读(158) 评论(0) 推荐(0) 编辑

Oozie调度hive报错application application failed 2 times due to applicationmaster for attempt appattempt_ timed out. failing the application.
摘要:<action name="xxx"> <hive xmlns="uri:oozie:hive-action:0.5"> <job-xml>${nameNode}/xxx/hive-site.xml</job-xml> <configuration> <property> <name>oozie.l 阅读全文

posted @ 2020-11-09 18:44 RICH-ATONE 阅读(1252) 评论(0) 推荐(0) 编辑

Oozie介绍与相关使用
摘要:oozie Oozie工作流程定义是一个DAG(Directed Acyclical Graphs)图,它由控制流节点(Control Flow Nodes)或动作节点(Action Nodes)组成 官网:http://oozie.apache.org/ 一.功能模块: Workflow 顺序执行 阅读全文

posted @ 2020-11-08 22:06 RICH-ATONE 阅读(435) 评论(0) 推荐(0) 编辑

Oozie常用命令及注意问题
摘要:Web界面: http://localhost:11000/oozie 检查配置文件是否有效: oozie validate workflow.xml 提交作业并让作业进入PREP状态: oozie job -oozie http://localhost:11000/oozie -config jo 阅读全文

posted @ 2020-11-08 22:05 RICH-ATONE 阅读(603) 评论(0) 推荐(0) 编辑

mysql中的utf8与utf8mb4
摘要:示例:建表语句后设置 ENGINE=InnoDB DEFAULT CHARSET=utf8 总结来说: utf8 是mysql 挖的坑,utf8mb4才是真正的 utf8 ,一般实际生产,进行数据库迁移的时候转换成utf8mb4是比较好的 注:show create table 进行显示的时候还是显 阅读全文

posted @ 2020-11-06 10:26 RICH-ATONE 阅读(176) 评论(0) 推荐(0) 编辑

Flink WordCount计算详解
摘要:pom依赖准备: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instanc 阅读全文

posted @ 2020-11-05 19:11 RICH-ATONE 阅读(481) 评论(0) 推荐(0) 编辑

sqoop配置从HDFS(Hive表) EXPORT 数据到MySQL
摘要:sqoop export 参数相关 注:使用sqoop不管从mysql导到hive还是hive导到mysql,参数的最后一定不能有空格,否则报错执行不成功! ps:--columns方式应可以解决mysql自增主键的问题 2.sqoop导出export数据到mysql sqoop中--update- 阅读全文

posted @ 2020-11-05 11:28 RICH-ATONE 阅读(488) 评论(0) 推荐(0) 编辑

hadoop高可用参考
摘要:https://together.blog.csdn.net/article/details/102638347?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.add_param_ 阅读全文

posted @ 2020-11-03 18:43 RICH-ATONE 阅读(114) 评论(0) 推荐(0) 编辑

hive实现全局排序使用sort by+order by还是直接使用order by表较好
摘要:如果数据量较小的话,直接使用order by即可 。实际场景中一般先使用sort by再使用order by效率更高一些 。 sort by只能保证在reduce内有序 。 hive实现全排序: 1.要么用order by,但这样默认了reducer个数为1,效率低下。 2.要么用sort by+o 阅读全文

posted @ 2020-11-02 15:07 RICH-ATONE 阅读(1623) 评论(0) 推荐(0) 编辑

oozie安装配置详解
摘要:https://www.cnblogs.com/czlan91/articles/10805637.html http://shiyanjun.cn/archives/664.html (简单之美) 阅读全文

posted @ 2020-11-02 14:50 RICH-ATONE 阅读(106) 评论(0) 推荐(0) 编辑

导航

统计信息

点击右上角即可分享
微信分享提示