dairui130

导航

上一页 1 ··· 3 4 5 6 7 8 9 10 下一页

2019年3月11日 #

shell 命令之 crontab

摘要: crontab是shell命令中的定时任务: crontab -e 进入当前定时任务的vim页面 每行是一个独立的定时脚本,使用和vim的语法部署定时任务 如下图: 脚本执行周期设置 可以用下面的网页做周期的验证: https://tool.lu/crontab 阅读全文

posted @ 2019-03-11 20:41 dairui130 阅读(210) 评论(0) 推荐(0) 编辑

shell 中的 && 和 ||

摘要: shell 中的 && 和 || 简言之,shell 中 && --左边的命令执行成功才会执行右边的命令。 || -- 左边的命令执行失败才会执行右边的命令。 阅读全文

posted @ 2019-03-11 20:25 dairui130 阅读(201) 评论(0) 推荐(0) 编辑

hive 桶表

摘要: 转自:https://blog.csdn.net/csdnliuxin123524/article/details/81052974 桶表(bucket table): 原理: 分区表是按照经常查询的字段做不同的分区,查询时就可以按分区进行查了.这样可以减小全局扫描提高查询的速度.分区表的缺陷就是选 阅读全文

posted @ 2019-03-11 14:00 dairui130 阅读(228) 评论(0) 推荐(0) 编辑

大数据之路 读书笔记

摘要: 阿里的《大数据之路》记录了阿里的大数据系统的产生,演化和设计思路。是大数据进阶的经典书籍。 本篇读书笔记会按照《大数据之路》的目录结构,记录我在阅读这本书的时候, 第一章:总述 待更新。。。 阅读全文

posted @ 2019-03-11 12:44 dairui130 阅读(425) 评论(0) 推荐(0) 编辑

hive-内部表和外部表 对比

摘要: 建表时,需要考虑究竟建内部表还是外部表,内部表和外部表都有哪些不同? 内部表: 1. 数据存储位置:数据最终会被移动到 hive.metastore.warehouse.dir指定的路径下,以表名创建一个文件夹,之后所有有关该表的数据都会存储到此文件夹中。 2.删除表时,表中的数据和元数据信息都会被 阅读全文

posted @ 2019-03-11 11:33 dairui130 阅读(355) 评论(0) 推荐(0) 编辑

Anaconda的使用

摘要: 解释&背景 Anaconda 是一个用于科学计算的 Python 发行版,支持 Linux, Mac, Windows, 包含了众多流行的科学计算、数据分析的 Python 包。 python2会在2020年1月1日正式停止服务。由于语法的不兼容,很多大公司也在做Python2向python3的代码 阅读全文

posted @ 2019-03-11 10:38 dairui130 阅读(287) 评论(0) 推荐(0) 编辑

2019年3月10日 #

Git和SourceTree配合使用

摘要: Git介绍 git是当今最强大的本地的分布式代码版本管理工具。 git的核心概念与操作:开发环境,本地仓库,远程仓库。他们的关系如下图: 与CVS及SVN的比较: CVS及SVN都是集中式的版本控制系统,而Git是分布式版本控制系统。 集中式版本控制系统是指:代码仅放中央服务器上,每次开发时必须联网 阅读全文

posted @ 2019-03-10 21:42 dairui130 阅读(3748) 评论(0) 推荐(0) 编辑

2019年3月7日 #

hive中数据存储格式对比:textfile,parquent,orc,thrift,avro,protubuf

摘要: 这篇文章我会从业务中关注的: 1. 存储大小 2.查询效率 3.是否支持表结构变更既数据版本变迁 5.能否避免分隔符问题 6.优势和劣势总结 几方面完整的介绍下hive中数据以下几种数据格式:textfile,parquent,orc,thrift,avro,protubuf 更新中... 预计3月 阅读全文

posted @ 2019-03-07 17:58 dairui130 阅读(809) 评论(1) 推荐(0) 编辑

hive 实现类似 contain 包含查询

摘要: 如何用hive sql 实现 contain 查询? 需求:判断某个字符串是否在另一个字符串中? 方法: 可以自定义函数,但是用正则匹配regexp更方便 代码如下: 首先,查看regexp正则函数的用法: 那么用正则实现包含功能的代码是: 表示 'QQqq' 匹配 '.*qq.*' 为真。QQqq 阅读全文

posted @ 2019-03-07 15:09 dairui130 阅读(26064) 评论(0) 推荐(0) 编辑

hive函数 parse_url的使用

摘要: hive提供了直接处理url的函数 parse_url desc funtion 的解释是: partToExtract的选项包含[HOST,PATH,QUERY,REF,PROTOCOL,FILE,AUTHORITY,USERINFO] 使用方法 常用的参数有 "HOST" 和 "PATH" 阅读全文

posted @ 2019-03-07 14:47 dairui130 阅读(952) 评论(0) 推荐(0) 编辑

上一页 1 ··· 3 4 5 6 7 8 9 10 下一页