摘要:
在Presto 函数开发一文中已经介绍过如何进行函数开发,本文主要讲述标量函数(Scalar Function)实现之后,是如何在Presto内部进行注册和被调用的。主要讲述标量函数是因为:三类函数的注册和调用过程略有不同,而实际查询中调用最多的是标量函数。 标量函数注册 函数在能够调用之前,首先要 阅读全文
摘要:
0. 写在前面 Presto Functions 并不能像 Hive UDF 一样动态加载,需要根据 Function 的类型,实现 Presto 内部定义的不同接口,在 Presto 服务启动时进行注册,然后才能在 SQL 执行时进行调用。 1. 函数定义 Presto 内部将 Functions 阅读全文
摘要:
[toc] 1. 开发环境 Elasticsearch 6.5.4 ES Hadoop 6.5.4 Hadoop 2.0.0 2. 下载地址 ES Hadoop下载地址如下: 官网地址:https://www.elastic.co/downloads/past releases 3. 使用示例 ES 阅读全文
摘要:
[toc] 1. 问题描述 最近在使用Mahout里的推荐算法进行实验,由于业务需求,需要修改Mahout源码,将原本输出到HDFS上的结果输出到HBase中。由于Mahout发布的源码都是Maven项目,所以在对项目进行编译打包时遇到了一些问题,在此文章中进行记录总结。 2. Mahout源码下载 阅读全文
摘要:
[toc] 问题描述 Hadoop在运行MR时,经常要将一些中间结果存到本地,为了节省存储空间,Hadoop采用序列化机制(Hadoop的序列化机制和Java的有所不同)将数据保存为二进制文件,此时若需要观察中间结果文件进行调试,就需要将二进制文件进行反序列化为可读的字符。此篇文章只展示反序列化的代 阅读全文
摘要:
[toc] 1. 背景描述 目前在做音乐推荐项目,前期做排序模型优化,任务是使用模型对用户的历史音乐进行排序,有6800多万个用户,约40G的用户数据,使用HBase作为数据仓库。 利用HBase可以存储多个版本数据的特性,数据运算完后入库时,将 作为 ,`songInfo:songid 歌曲id 阅读全文
摘要:
[toc] 修改现有磁盘挂载 在用虚拟机搭建完cm集群后,因为之前在创建虚拟机的时候只分配了20G的硬盘空间,所以出现了日志空间不足的告警。解决这个问题,需要添加新的硬盘并重新挂载到目录上,但是原目录中的文件夹有特定的所有者和权限属性设定,直接删除原目录会导致节点直接挂掉。参考了 "该篇博客" 的挂 阅读全文
摘要:
用该文章记录一些常见需求的正则表达式处理。 参考博客: "1] [Python正则表达式操作指南" "2] [写个可以匹配一下各种特殊字符的正则表达式" "3] [Python的正则表达式中的圆括号到底如何使用" 以下是自己处理问题时遇到的一个例子: 问题描述:替换掉字符串中方括号和圆括号的内容 例 阅读全文
摘要:
[toc] 认识Hive Hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL去查 阅读全文
摘要:
[toc] 在MarkDown中可以插入数学公式,但是在博客园和有道云笔记之中的数学公式插入方式略有不同(博客园需要先在后台选项中开启插入数学公式选项): 代码 | 行内公式 | 整行公式 | | 博客园 | |`$$数学公式$$` 有道云笔记 | \ $` 数学公式 \ 二元运算符及一般数学符号 阅读全文