04 2017 档案
摘要:斜体部分是本人注: 结合SQL的 WAITFOR DELAY '00:00:05' 可以自己实验 锁和事务隔离级别是两个不同的概念, 锁是更加具体的手段去实现了各个不同的事务级别. 事务 事务隔离级别: 1、Read Uncommitted(读取其他事务未提交内容) 在该隔离级别中,所有事务可以看到
阅读全文
摘要:什么时候使用雪花模型? Ralph Kimball,数据仓库大师,讲述了三个例子。对于三个例子,使用雪花模型不仅仅是可接受的,而且是可能是一个成功设计的关键。 1,一个用户维度表且数据量较大。其中,80%的事实度量表是匿名访问者,仅包含少数详细信息。20%的是可靠的注册用户,且这些注册用户有较为详细
阅读全文
摘要:Actions: 当使用Excel来访问SSAS的Cube时, 可以右击某个单元格或者Hierarchy,在弹出的菜单中如果看到下图所示的按钮, 就说明在SSAS的Actions里配置过相应的Actions, 一般最常用的就是配置一个URL链接到某个可以Drillthrough的SSRS repor
阅读全文
摘要:关于SSIS的优化, 可以参考下面这两篇文章: http://www.cnblogs.com/ljhdo/p/5477357.html http://www.cnblogs.com/biwork/p/3330115.html 在Data Flow控件中有很多组件, 有些组件是完全阻塞型的,比如Sor
阅读全文
摘要:package mapreduce; import java.util.List; import java.io.IOException; import java.util.ArrayList; import java.util.Iterator; import org.apache.hadoop.
阅读全文
摘要:package mapreduce; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop
阅读全文
摘要:目前最新的Eclipse版本号叫 Neon.3 Release (4.6.3), 支持java8 读者阅读这篇文章的时候可能有了新的java版本和对应的eclipse版本出来了, 所以建议先去维基百科或者有关网站了解下应该下载什么版本的Eclipse. 使用Eclipse开发MapReduce程序,
阅读全文
摘要:关键点: 转自这篇文章:http://www.68idc.cn/help/buildlang/ask/20150319286727.html “OpenWrt使用dropbear作为服务端,~/.ssh/authorized_keys并不生效。其实,dropbear的公钥存储文件是600权限的 /e
阅读全文
摘要:Hadoop 2.0及以后的版本可以直接在windows上跑, 不用cygwin了, 凡是讲cygwin的攻略都可以忽略. 关于环境变量: 我实验下来要加的唯一一个环境变量是系统变量里的Path, 往里加上Hadoop的bin目录的路径. 关于winutils: 除了Hadoop安装包和JDK外,还
阅读全文
摘要:Kaggle 地址 参考模型 其实这个项目的关键点在与存在大量的离散的特征,对于离散的维度的处理方法一般就是把每个离散维度的每个特征水平都像SQL行列装换那样转成一个维度,这个维度下的值只有0或1。但这样势必会导致维度暴增。这个项目就是典型,用merge函数把用户表和活动表链接后,存在大量的离散维度
阅读全文
摘要:重要参考 https://topepo.github.io/caret/pre-processing.html#identifying-correlated-predictors dummyVars:类似SQL的行列转换,把各个特征水平转为列 nearZeroVar:比如某一列数据大多数都是一个值,
阅读全文
摘要:http://bidn.com/Blogs/userid/17/-repost-dimension-attribute-relationships-rigid-vs-flexible https://docs.microsoft.com/en-us/sql/analysis-services/mul
阅读全文
摘要:数据立方体和传统数据库的差别在于数据立方体即Cube把很多原来要用数据库的group by操作来达到的效果通过其独有的存储形式予以加速, 用户可以方便地下钻, 切面 看到各种聚合的数据的结果。 试想一下,如果一个cube拥有3个维度,为了计算在各个维度上的聚合,就要进行2^3次计算,如果有10个维度
阅读全文
摘要:对于数据库, 提供行级别的权限管理的一个技巧就是在表的外面套一层view, 在view的逻辑里利用: SELECT system_user 语句来获取当前用户的用户名, 再join相关的权限表得知用户可以有权限访问什么样filter下的数据, 最后view返回的数据和表的schema是一样的, 但是
阅读全文