摘要:
一.基本介绍 Hive是基于Hadoop的一个数据仓库工具,底层数据存储在HDFS上;可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能 Hive本质是将SQL语句转换为MapReduce任务运行 其他知识: DML(data manipulation language)数据操控语言 阅读全文
摘要:
=# simhash simhash 分词→hash→加权→合并→降维 两个simhash对应二进制(01串)取值不同的数量称为这两个simhash的海明距离(异或运算) 分表存储策略: 将一个64位的simhash签名拆分成4个16位的二进制码 编码 import org.apache.spark 阅读全文