摘要: 一.基本介绍 Hive是基于Hadoop的一个数据仓库工具,底层数据存储在HDFS上;可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能 Hive本质是将SQL语句转换为MapReduce任务运行 其他知识: DML(data manipulation language)数据操控语言 阅读全文
posted @ 2020-12-31 17:33 等木鱼的猫 阅读(170) 评论(0) 推荐(0) 编辑
摘要: =# simhash simhash 分词→hash→加权→合并→降维 两个simhash对应二进制(01串)取值不同的数量称为这两个simhash的海明距离(异或运算) 分表存储策略: 将一个64位的simhash签名拆分成4个16位的二进制码 编码 import org.apache.spark 阅读全文
posted @ 2020-12-31 17:28 等木鱼的猫 阅读(271) 评论(0) 推荐(0) 编辑