04 2019 档案
摘要:1、 set hive.auto.convert.join = true; mapJoin的主要意思就是,当链接的两个表是一个比较小的表和一个特别大的表的时候,我们把比较小的table直接放到内存中去,然后再对比较大的表格进行map操作。join就发生在map操作的时候,每当扫描一个大的table中
阅读全文
摘要:Spark1.4发布,支持了窗口分析函数(window functions)。在离线平台中,90%以上的离线分析任务都是使用Hive实现,其中必然会使用很多窗口分析函数,如果SparkSQL支持窗口分析函数,那么对于后面Hive向SparkSQL中的迁移的工作量会大大降低,使用方式如下: 1、初始化
阅读全文
摘要:什么是FM模型 FM英文全称是“Factorization Machine”,简称FM模型,中文名“因子分解机”。 FM模型其实有些年头了,是2010年由Rendle提出的,但是真正在各大厂大规模在CTR预估和推荐领域广泛使用,其实也就是最近几年的事。 FM模型 原理参考: https://zhua
阅读全文
摘要:基于OpenMp的并行编程 功能:并行处理比较耗时的for循环 在OpenMP中,对for循环并行化的任务调度使用schedule子句来实现: 使用格式:schedule(type[,size]) type参数表示调度类型:static、dynamic、guided size参数(可选):分配给每个
阅读全文
摘要:https://blog.csdn.net/dcrmg/article/details/53912941 多线程操作的thread类,简单多线程示例: 输出: Thread 02 is working !Thread 01 is working ! Thread 01 is working !Thr
阅读全文
摘要:Markdown是一种可以使用普通文本编辑器编写的标记语言,通过简单的标记语法,它可以使普通文本内容具有一定的格式,其目标是实现易读易写。我刚刚接触一款简单高效的Markdown编辑器–Typora,个人觉得非常好用,强烈推荐给大家。 一、Typora的优点简洁美观实时预览扩展语法跨平台免费 二、主
阅读全文
摘要:Hive 分区介绍: hive中简单介绍分区表(partition table),含动态分区(dynamic partition)与静态分区(static partition) hive中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混合分区等)。 分区列也不是表中的一个实际的
阅读全文
摘要:COALESCE是一个函数, (expression_1, expression_2, ...,expression_n)依次参考各参数表达式,遇到非null值即停止并返回该值。如果所有的表达式都是空值,最终将返回一个空值。 比如我们要登记用户的电话,数据库中包含他的person_tel,home_
阅读全文
摘要:一、行转列的使用 1、问题 hive如何将 a b 1a b 2a b 3c d 4c d 5c d 6 变为: a b 1,2,3c d 4,5,6 2、数据 test.txt a b 1 a b 2 a b 3 c d 4 c d 5 c d 6 3、答案 1.建表 2.处理 二、列转行 1、问
阅读全文
摘要:使用hive储存数据时,需要对做分区,如果从kafka接收数据,将每天的数据保存一个分区(按天分区),保存分区时需要根据某个字段做动态分区,而不是傻傻的将数据写到某一个临时目录最后倒入到某一个分区,这是静态分区。 Hive动态分区步骤如下: 1、建立某一个源表模拟数据源并插入一些数据 2、建立一张分
阅读全文
摘要:一、下载Spark安装包 1、从官网下载 http://spark.apache.org/downloads.html 2、从微软的镜像站下载 http://mirrors.hust.edu.cn/apache/ 3、从清华的镜像站下载 https://mirrors.tuna.tsinghua.e
阅读全文
摘要:一、简介 1、什么是Spark 官网地址:http://spark.apache.org/ Apache Spark™是用于大规模数据处理的统一分析引擎。 从右侧最后一条新闻看,Spark也用于AI人工智能 spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的通用
阅读全文
摘要:概述 GROUPING SETS,GROUPING__ID,CUBE,ROLLUP 这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时、天、月的UV数。 GROUPING SETS和GROUPING__ID 说明 在一个GROUP BY查询中,根据不同
阅读全文
摘要:https://www.kaggle.com/c/google-ai-open-images-object-detection-track#Evaluation Submissions are evaluated by computing mean Average Precision (AP), m
阅读全文