chenzechao

2019年6月19日

摘要：当spark取出表的scheme中，类型名为tinyint的字段，会被处理为Boolean型。而mysql中tinyint的sqlType都会默认处理为bit，所以如果数据库中的这类字段中，存储了0、1之外的值，拉取数据时则会出现数据失真。处理方式：在JDBC的URL中加入参数：tinyInt1 阅读全文

posted @ 2019-06-19 22:54 chenzechao 阅读(650) 评论(0) 推荐(0)

2019年6月18日

数据库与数据仓库的区别

摘要：数据库是面向事务的设计，数据仓库是面向主题设计的。数据库一般存储在线交易数据，数据仓库存储的一般是历史数据。数据库设计是尽量避免冗余，一般采用符合范式的规则来设计，数据仓库在设计是有意引入冗余，采用反范式的方式来设计。数据库是为捕获数据而设计，数据仓库是为分析数据而设计，它的两个基本的元素是维阅读全文

posted @ 2019-06-18 09:59 chenzechao 阅读(2593) 评论(0) 推荐(0)

2019年6月10日

Spark Steaming消费kafka数据条数变少问题

摘要：对于基于Receiver 形式，我们可以通过配置 spark.streaming.receiver.maxRate 参数来限制每个 receiver 每秒最大可以接收的记录的数据；对于 Direct Approach 的数据接收，我们可以通过配置 spark.streaming.kafka.maxR 阅读全文

posted @ 2019-06-10 09:55 chenzechao 阅读(1029) 评论(0) 推荐(0)

intellij idea 搜索

摘要： 1. Ctrl+N 按名字搜索类相当于eclipse的ctrl+shift+R，输入类名可以定位到这个类文件就像idea在其它的搜索部分的表现一样，搜索类名也能对你所要搜索的内容多个部分进行匹配甚至不是自己写的类也能搜索而且如果能匹配的自己写的类，优先匹配自己写的类 2. Ctrl+Shift+N 按文件名搜索文件同搜索类类似，只不过可以匹配... 阅读全文

posted @ 2019-06-10 08:43 chenzechao 阅读(1930) 评论(0) 推荐(0)

ZooKeeper shell

摘要： ref: https://blog.csdn.net/qq_41455420/article/details/79399096 阅读全文

posted @ 2019-06-10 08:39 chenzechao 阅读(287) 评论(0) 推荐(0)

2019年5月31日

linux 端口映射设置

摘要： ### 端口转发iptables -t nat -A PREROUTING -p tcp --dport 新端口 -j REDIRECT --to-ports 旧端口### 服务器中转firewall-cmd --add-forward-port=port=1433:proto=tcp:toaddr 阅读全文

posted @ 2019-05-31 16:39 chenzechao 阅读(5726) 评论(0) 推荐(0)

2019年5月30日

maxCompute odps 行转列

摘要： select name ,REGEXP_REPLACE(str,"[\\[\"\\]]",'') from ( select trans_array(1, ",", name,list) as (name,str) from ( select '经办人' as name,'["1001","1002"]' as list ) ... 阅读全文

posted @ 2019-05-30 11:28 chenzechao 阅读(3892) 评论(0) 推荐(0)

2019年5月9日

ADS/ADB遇到的坑

该文被密码保护。阅读全文

posted @ 2019-05-09 15:09 chenzechao 阅读(2) 评论(0) 推荐(0)

2019年5月5日

dev stg prd 开发测试生产环境

摘要： dev development 开发环境stg stage 测试环境prd product 线上环境阅读全文

posted @ 2019-05-05 11:20 chenzechao 阅读(5160) 评论(0) 推荐(0)

2019年4月30日

大数据之路

摘要： 1.什么是数据模型？数据模型就是数据的组织和存储方法。主要关注的是从业务、数据存取和使用角度合理存储数据。 2.典型数据仓库建模方法论 ER模型维度模型（建模四步曲：确定业务流程->确定粒度->确定维度->确定事实表） 1.体系架构 2.模型分层主要分为三大层（4小层）：操作数据层（ODS）公共维度模型层（CDM） ... 阅读全文

posted @ 2019-04-30 10:37 chenzechao 阅读(506) 评论(0) 推荐(0)

公告