摘要:
ods层 包括从数据源抽取的原始数据 dw层 dwd 数仓明细层,对原始数据进行清洗,按照主题聚合表,维度退化 dwm 轻度汇聚,按维度计算指标 dws 数据集市,按业务生成宽表 阅读全文
摘要:
1998, 2003, 2011, 2014, 2017 5个标准版本,每个版本不同特性 https://en.cppreference.com/w/cpp/compiler_support 列出了各个编译器对各个标准特性的支持程度 http://www.cplusplus.com/info/des 阅读全文
摘要:
节点分裂,特征选择 从概率学角度,样本集中不同样本类别分布地越均匀,说明不确定性越大,比如投掷硬币,50%正,50%负,完全不确定,而决策树模型就是需要选取特征,通过特征取值对样本进行子集划分,使得子集中的不确定性减少。 描述不确定性的算法模型:1 gini纯度 2 信息熵 两个函数都是在样本分布越 阅读全文
摘要:
1 开闭原则 对扩展开放,对修改关闭。 使用接口和继承的方式,实现可扩展,比如父类具有支付接口,一个子类使用微信支付实现支付接口,现在需要新增支付宝支付方式,则新建子类使用支付宝方式实现支付接口,这样既对微信类就没有修改又新增了支付宝支付方式,所以对修改关闭了,对扩展开放了。(吐槽:这还用说吗,不然 阅读全文
摘要:
gc停顿时间对于系统整体的影响 Amdahl's law 如果在一个线程中,一个java程序任务,需要处理100条数据,处理时间1分钟,有6秒钟时间用来阻塞串行gc,那么当程序使用两个核来处理的时候,有54s的时间可以减半为27秒,但是6秒的串行时间不变,因此总体时间减小为33秒。 S=1/(1-a 阅读全文
摘要:
问题描述: 0-1背包问题说的是,给定背包容量W,一系列物品{weiht,value},每个物品只能取一件,获取背包所能容纳的value最大值。 比如说:背包容量300,物品数量10.有以下物品:{weight,value} 最佳组合: 总重量:294,总价值388。 算法: 遗传算法:https: 阅读全文
摘要:
在一个分布式计算系统中,为了保证数据的一致性需要对数据进行一致性快照。Flink和spark在做流失计算的时候都借鉴了chandy-lamport算法的原理,这篇文章就是对chandy-lamport算法原理的详细介绍。 考虑一个分布式计算系统。 其中有两个节点,也就是两个进程,p和q,s0,s1对 阅读全文
摘要:
最近项目中需要在微服务中调用rest接口,而且需要调用得次数很多,所以同步得http客户端已经不满足要求,在网上查阅资料后发现了async-http-client这个包得性能不错,所以写了个demo测试性能。 由于在线得网站一般都会限制流量,也有反爬虫,所以为了排除服务端得影响,自己搭建一个简单ht 阅读全文
摘要:
十分简单的scala单元测试 在编写性能要求高的模块的时候,单元测试是有必要的,通过搜索,我找到了一套提供单元功能测试和性能测试的可行方案,该方案简单好用,推荐给大家。 测试工具 首先找到适用于scala的好的测试工具是有必要的,通过搜索我找到了以下两个: 这两个工具提供scala语言的api,集成 阅读全文
摘要:
github下载源码 ubuntu上安装play,配置好环境变量 暂时不支持基于spark2.x的编译,所以compile.conf中spark版本不变 调用build.sh开始编译 编译好后dist目录生成压缩包 压缩包传输到linux后解压缩 linux安装mysql5.7,配置连接权限,创建d 阅读全文