随笔档案「2020年11月」 - RICH-ATONE

Garbage In Garbage Out

摘要：两篇不错的文章：林家翘先生提醒青年学者：千万不要Garbage in，garbage out 不重视建模，Garbage In Garbage Out而已！阅读全文

posted @ 2020-11-30 11:41 RICH-ATONE 阅读(263) 评论(0) 推荐(0)

JournalNode的作用

摘要：官方解释：参考：journalnode的作用阅读全文

posted @ 2020-11-27 15:38 RICH-ATONE 阅读(549) 评论(0) 推荐(0)

SecondaryNameNode 的作用

摘要：SecondaryNameNode 的作用阅读全文

posted @ 2020-11-27 14:52 RICH-ATONE 阅读(163) 评论(0) 推荐(0)

Hive Map数据长尾问题

摘要：个人实践（数据倾斜）： 1.当大表join小表时，将小表转化为内存即可，即开启小表优化。（set hive.auto.convert.join=true;） 2.尽量避免count(distinct xxx)的使用，如果存在重复行，则在子查询中先进行group by去重操作。（set hive. 阅读全文

posted @ 2020-11-25 18:37 RICH-ATONE 阅读(802) 评论(0) 推荐(0)

Hive基本操作

摘要：Hive基本操作阅读全文

posted @ 2020-11-25 17:38 RICH-ATONE 阅读(154) 评论(0) 推荐(0)

Hadoop中NameNode的工作机制

摘要：Hadoop中NameNode的工作机制阅读全文

posted @ 2020-11-24 18:38 RICH-ATONE 阅读(126) 评论(0) 推荐(0)

技术架构分析与架构分析

摘要：实时数仓搭建与实时分析调研阅读全文

posted @ 2020-11-23 18:57 RICH-ATONE 阅读(169) 评论(0) 推荐(0)

Sqoop报错Caused by: com.mysql.jdbc.exceptions.jdbc4.MySQLTransactionRollbackException: Deadlock found when trying to get lock; try restarting transaction

摘要：Error: java.io.IOException: Can't export data, please check failed map task logs at org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.j 阅读全文

posted @ 2020-11-23 15:27 RICH-ATONE 阅读(2330) 评论(2) 推荐(0)

项目管理PMP相关

摘要：项目管理实战第一章：项目管理实战（引论）第二章：项目管理实战（项目运行环境）第三章：项目经理角色为什么说你的数据团队需要一个项目管理型人才？数据团队如何为自己争取资源 < 评论分析：我最近也一直在思考数据团队价值方面的事情，我感觉这是绝大部分公司里大数据部门共同的痛点。在有权利分配资源的阅读全文

posted @ 2020-11-22 17:06 RICH-ATONE 阅读(146) 评论(0) 推荐(0)

数据分析相关

摘要：我在滴滴数据分析岗的面试和实习经历如何用数据分析驱动用户增长阅读全文

posted @ 2020-11-20 18:36 RICH-ATONE 阅读(140) 评论(0) 推荐(0)

Hadoop委任和解除节点

posted @ 2020-11-20 16:49 RICH-ATONE 阅读(188) 评论(0) 推荐(0)

Oozie调度Sqoop报错

摘要：测试九次后以失败而告终，望评论 2020-11-20 15:24:13,326 [uber-SubtaskRunner] ERROR org.apache.sqoop.tool.ImportTool - Encountered IOException running import job: java 阅读全文

posted @ 2020-11-20 15:29 RICH-ATONE 阅读(303) 评论(0) 推荐(0)

Oozie调度Sqoop的两种方式

摘要：sqoop command sqoop命令可以通过command和arg标签组成。当使用command元素时，oozie将会按照空格切分命令，作为参数。因此当你使用query的时候，就不能用command了！当使用arg的时候，每个arg都是一个参数。所有的参数部分，都可以使用EL表达式。参阅读全文

posted @ 2020-11-20 14:50 RICH-ATONE 阅读(427) 评论(0) 推荐(0)

MySql数据表直接到Hive表操作

摘要：常用配置： bin/sqoop import \ --connect jdbc:mysql://ip:3306/database?tinyInt1isBit=false \ --username xxx \ --password xxx \ --table xxx \ --xxx \ --num-m 阅读全文

posted @ 2020-11-20 12:04 RICH-ATONE 阅读(1423) 评论(0) 推荐(0)

Apriori算法原理与实现

摘要：Apriori两个重要原理： 1.如果一个集合是频繁项集，则它的所有子集都是频繁项集。假设一个集合{A,B}是频繁项集，则它的子集{A}, {B} 都是频繁项集。 2.如果一个集合不是频繁项集，则它的所有超集都不是频繁项集。假设集合{A}不是频繁项集，则它的任何超集如{A,B}，{A,B,C}必定也阅读全文

posted @ 2020-11-19 22:34 RICH-ATONE 阅读(630) 评论(0) 推荐(0)

Hive表压缩

摘要：Hive数仓中建表尽量都采用压缩，采用压缩能极大的节省存储空间，减少成本消耗。一般建表采用orc snappy压缩格式。如果load数据或者sqoop导入数据到hive中，不能直接使用压缩，可以建临时中间表，查询插入到压缩表中。总之，能节省成本就节省成本，压缩是个不错的选择。同时也支持对表后期更阅读全文

posted @ 2020-11-19 22:28 RICH-ATONE 阅读(1255) 评论(0) 推荐(0)

HIVE拉链表示例

摘要：极限存储：一般采用拉链表。拉链表针对一个变化字段进行操作一个变化字段进行设计开始和结束时间。如果有多个字段进行更新变化，则需要设计多个开始和结束时间，复杂度比较高，或者进行拆表进行设计或者选择全量进行存储。场景：在数据仓库的数据模型设计过程中，经常会遇到下面这种表的设计：有一些表的数据量很阅读全文

posted @ 2020-11-18 23:13 RICH-ATONE 阅读(344) 评论(0) 推荐(1)

Title

摘要：数据运营手册阅读全文

posted @ 2020-11-16 18:39 RICH-ATONE 阅读(120) 评论(0) 推荐(0)

Hadoop的HA的搭建

摘要：在非高可用分布的集群的基础上进行搭建：一般使用HDFS High Availability Using the Quorum Journal Manager此方式进行搭建。 Zookeeper部署： 1.tar -zxvf zookeeper-3.4.10.tar.gz -C ./ （解压zk到当阅读全文

posted @ 2020-11-16 00:04 RICH-ATONE 阅读(331) 评论(0) 推荐(0)

Make A Question

摘要：https://www.codewars.com/ 阅读全文

posted @ 2020-11-12 18:27 RICH-ATONE 阅读(163) 评论(0) 推荐(0)

Oozie调度hive报错application application failed 2 times due to applicationmaster for attempt appattempt_ timed out. failing the application.

摘要：<action name="xxx"> <hive xmlns="uri:oozie:hive-action:0.5"> <job-xml>${nameNode}/xxx/hive-site.xml</job-xml> <configuration> <property> <name>oozie.l 阅读全文

posted @ 2020-11-09 18:44 RICH-ATONE 阅读(1328) 评论(0) 推荐(0)

RICH-ATONE

11 2020 档案