06 2019 档案
摘要:一.Storage Based Authorization in the Metastore Server >基于存储的授权,可以对Metastore中的元数据进行保护,但是没有提供更加细粒度的访问控制【例如:列级别、行级别等】。 >启用当前认证方式后,dfs,add,delete,compile,
阅读全文
摘要:一.KNN简介 1.KNN算法也称为K邻近算法,是数据挖掘分类技术之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。 2.KNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本
阅读全文
摘要:一.Hive三种设计模式 1.默认配置【使用Netty存储元数据】 2.mysql【使用mysql存储元数据】 3.配置Thrift【使用mysql存储元数据】 二.执行步骤 三.scala访问Hive
阅读全文
摘要:一.表设计 1.预分区【Pre-Creating Regions】 默认情况下,在创建HBase表的时候会自动创建一个region分区,当写入数据时,所有的HBase客户端都向这一个region写数据,直到这个region足够大时才进行切分。因此,为了提高批量写入的效率可以预先创建好多个分区【这个要
阅读全文
摘要:一.目的 优化查询以及检索性能 二.创建索引 create index index_user on table user(name) as 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandle' wiith deferred rebu
阅读全文
摘要:一.特征 和关系型数据库中的普通视图一样,hive也支持视图。 二.特点 1.不支持物化视图。 2.只能查询,不能做加载数据操作。 3.视图的创建,只是保存一份元数据,查询视图时才执行对应的子查询。 4.view定义中若包含了ORDER BY/LIMIT语句,则当查询视图时也进行ORDER BY/L
阅读全文
摘要:一.简介 1.Lateral View 用于和UDTF函数【explode,split】结合来使用。 2.首先通过UDTF函数将数据拆分成多行,再将多行结果组合成一个支持别名的虚拟表。 3.主要解决在select使用UDTF做查询的过程中查询只能包含单个UDTF,不能包含其它字段以及多个UDTF的情
阅读全文
摘要:一.UserCF【基于用户】 基于用户的协同过滤,通过不同用户对商品的评分来评测用户之间的相似性,基于用户之间的相似性进行推荐。简单来说就是:给用户推荐和他兴趣相似的其它用户喜欢的商品。 二.ItemCF【基于商品】 基于商品的协同过滤,通过用户对不同商品的评分来评测商品之间的相似性,基于商品之间的
阅读全文
摘要:一.简介 RSA加密算法是一种非对称加密算法。在公开密钥加密和电子商业中RSA被广泛使用。 RSA公开密钥密码体制。所谓公开密钥密码体制就是使用不同的加密密钥与解密密钥,是一种“由已知加密密钥推导出解密密钥在计算上是不可行的”密码体制。 在公开密钥密码体制中,加密密钥(即公开密钥)PK是公开信息,而
阅读全文
摘要:一.核心思想 把HQL当做MapReduce程序去优化。 注意,以下SQL不会转为MapReduce执行: 1.select仅查询本表字段。 2.where仅对本表字段做条件过滤。 二.启动Hive 备注:Hive依赖Zookeeper和HDFS,因此需要先开启! 三.Explain Explain
阅读全文