随笔分类 - 开源大数据
摘要:数据分析笔试中累加问题是非常常见的考题,今天我们用一个函数来搞定它 sum over(partition by 分组列 order by 排序列 rows between 开始位置 preceding and 结束位置 following) 其中'开始位置'和'结束位置'可配置参数:数据、curre
阅读全文
摘要:假设我有一个看起来像这样的蜂巢表: ID event order_num A red 2 A blue 1 A yellow 3 B yellow 2 B green 1 ... 我正在尝试使用 collect_list 为每个 ID 生成事件列表。所以类似于以下内容: SELECT ID, col
阅读全文
摘要:常用spark优化参数 强制使用spark engine set tqs.query.engine.type = sparkCli; set spark.yarn.priority = 4; 双写HDFS开启: set spark.shuffle.hdfs.enable=true; set spar
阅读全文
摘要:知识点 基本流程 实验分层问题 最小样本量计算 均值类 比值类 SRM检验 指标检验 比值类 均值类 关于统计检验显著性问题 参考资料基本流程 确定基本流程和假设,确认做这个功能是为了提升/降低什么指标。 开发相关功能 设计分层实验,进行流量分配。通过PowerAnalysis计算最小样本量。 实验
阅读全文
摘要:背景 最近很多时候需要将hivesql转化为prestosql ,这里面有很多不能直接复用需要调整func甚至改用其他逻辑。 为了后续方便查询,后面将总结以下经常用到的sql记录下来方便后续使用。 爆炸函数实现 hive:SELECT student,score FROM tests LATERAL
阅读全文
摘要:Rollup Rollup的根本作用就是提升某些查询的查询效率,也称为物化索引。 Rollup属于Base表,Base表可以增删Rollup,Rollup完全和Base表同步更新,Base表数据发生变化,Rollup也会跟随Base表变化。 Rollup完全独立存储,因此要考虑存储问题。 Rollu
阅读全文
摘要:简介: 根据技术调研的过程可以明显的体会到hbase的存储方式和数据库的存储有着明显的区别,查询的方式也有着很大不同,HBase主要是通过这种filter来对数据进行筛选。同时对于数据的体量较大(10亿级别以上的数据数据量),检索和修改的场景较多时是比较适合使用hbase。 HBase过滤器可以根据
阅读全文
摘要:ClickHouse是面向OLAP的分布式列式DBMS。我们部门目前已经把所有数据分析相关的日志数据存储至ClickHouse这个优秀的数据仓库之中,当前日数据量达到了300亿。 之前介绍的有关数据处理入库的经验都是基于实时数据流,数据存储在Kafka中,我们使用Java或者Golang将数据从Ka
阅读全文
摘要:摘要: 下面首先简单介绍了搜索引擎的性能,然后详细说明了HBase与MySQL的性能对比,这里的数据都是经过实际的测试获得的。最后,给出了采用多线程批量从HBase中取数据的方案,此方案经过测试要比通过自定义Filter的方式性能高出很多。 关键词: HBase, 高性能, 获取数据, 性能对比,
阅读全文
摘要:导入数据后发现大量分区字段插入错误,需要批量删除分区,发现不能批量操作,只能手写一个脚本分布执行。 shell 脚本如下: ports="8888" user='' pwd='' host='' dbtable='' drop_sql=(`curl -u $user:$pwd 'http://hos
阅读全文
摘要:同比、环比分析是一对常见的分析指标,其增长率公式如下: 同比增长率 =(本期数 - 同期数) / 同期数 环比增长率 =(本期数 - 上期数) /上期数 在一些提供了开窗函数的数据库中(如Oracle、Hive),可以利用lag()、lead()函数配合over(),非常方便的实现同比和环比的查询。
阅读全文
摘要:Bool query 包含那些? Bool query 对应lucene 的BooleanQuery,一般由一个或者多个查询子句组成,如下表格所示: 用法描述 must 查询一定包含匹配查询内容,并且提供得分 filter 查询一定包含匹配查询内容,但是不提供得分,会对查询结果进行缓存 should
阅读全文
摘要:如何优雅高效的在海量数据存储与查找 对于这个问题我们首先可能会想到直接去存储这40亿个数据,当然这确实是一种方法。但是我们是否考虑过这样做的后果呢?如果你的解决方案就是上面的那种方法的话,那你可能真的没有考虑过后果。所以你有必要继续往下读。 我们先不管后果是什么,现在我来带大家看一组数据,假设这40
阅读全文
摘要:一、背景 需求: redis通过tcp来对外提供服务,client通过socket连接发起请求,每个请求在命令发出后会阻塞等待redis服务器进行处理,处理完毕后将结果返回给client。 其实和一个http的服务器类似,一问一答,请求一次给一次响应。而这个过程在排除掉redis服务本身做复杂操作时
阅读全文
摘要:目录 1、在 shell 脚本中定义变量,在 hive -e 中使用 2、通过 --hiveconf 定义变量 3、通过 --hivevar 定义变量 4、通过 -define 定义变量 操作的表: hive> select * from hbase_table_1; OK 1 zhangsan 2
阅读全文
摘要:如何优雅高效的在海量数据存储与查找 对于这个问题我们首先可能会想到直接去存储这40亿个数据,当然这确实是一种方法。但是我们是否考虑过这样做的后果呢?如果你的解决方案就是上面的那种方法的话,那你可能真的没有考虑过后果。所以你有必要继续往下读。 我们先不管后果是什么,现在我来带大家看一组数据,假设这40
阅读全文
摘要:ck 目前支持了更新和删除,但是与传统sql语法 略有不同,我也记录下来,防止后面忘记。 测试数据 :) select count(*) from system.columns where table='test_update'; ┌─count()─┐ │ 332 │ └─────────┘ :)
阅读全文
摘要:日期和时间运算符 时区转化 SELECT timestamp '2012-10-31 01:00 UTC'; 2012-10-31 01:00:00.000 UTC SELECT timestamp '2012-10-31 01:00 UTC' AT TIME ZONE 'America/Los_A
阅读全文
摘要:我们都知道,Hive 内部提供了大量的内置函数用于处理各种类型的需求,参见官方文档:Hive Operators and User-Defined Functions (UDFs)。我们从这些内置的 UDF 可以看到两个用于解析 Json 的函数:get_json_object 和 json_tup
阅读全文
摘要:thrift服务hbase本身已经集成了thrift,使用以下命令开启hbase thrift的服务器端。关闭是将start修改为stop即可。默认情况下监听9090端口。 hbase-daemon.sh start thrift2 hbase-daemons.sh start thrift2 (集
阅读全文