会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Sprio丨往昔
欲带皇冠,必承其重
博客园
首页
新随笔
联系
订阅
管理
2019年9月6日
Hadoop——Hive的序列化,文件存储,分桶和分区
摘要: 一、序列化 1.正则表达式 创建表 2.通过json文件创建表 需要注意的问题: 每行必须是一个完整的JSON,一个JSON串不能跨 越多行,原因是Hadoop是依赖换行符分割文件的。 创建数据表:(数据表中的列名与JSON中的KEY保持一致) 3.什么是SerDe: SerDe是“Serializ
阅读全文
posted @ 2019-09-06 16:40 Sprio丨往昔
阅读(1132)
评论(0)
推荐(0)
编辑
2019年9月5日
Hadoop——Hive的数据操作
摘要: 一、Hive的数据类型 1.基本数据类型 由上表我们看到hive不支持日期类型,在hive里日期都是用字符串来表示的,而常用的日期格式转化操作则是通过自定义函数进行操作。 hive是用java开发的,hive里的基本数据类型和java的基本数据类型也是一一对应的,除了string类型。有符号的整数类
阅读全文
posted @ 2019-09-05 19:05 Sprio丨往昔
阅读(809)
评论(0)
推荐(0)
编辑
Hadoop——Hive简介和环境配置
摘要: 一、Hive的简介和配置 1.简介 Hive是构建在Hadoop之上的数据操作平台l Hive是一个SQL解析引擎,它将SQL转译成MapReduce作业,并在Hadoop上运行Hive表是HDFS的一个文件目录,一个表名对应一个目录名,如果存在分区表的话,则分区值对应子目录名。 2.Hive的体系
阅读全文
posted @ 2019-09-05 14:33 Sprio丨往昔
阅读(837)
评论(0)
推荐(0)
编辑
2019年8月29日
Hadoop基础——优化策略
摘要: 一、MapReduce 跑的慢的原因 1.Mapreduce 程序效率的瓶颈在于两点: 1)计算机性能 CPU、内存、磁盘健康、网络 2)I/O 操作优化 (1)数据倾斜 (2)map和reduce数设置不合理 (3)map运行时间太长,导致reduce等待过久 (4)小文件过多 (5)大量的不可分
阅读全文
posted @ 2019-08-29 19:56 Sprio丨往昔
阅读(214)
评论(0)
推荐(0)
编辑
Hadoop——基础练习题
摘要: 一、Wordcount练习 1.需求:通过hadoop分析文件中单词总数 1.要被分析的文件内容如图所示,每个单词之间以空格分开 2.实现的效果如图 2.代码实现 1.解决数据倾斜问题 考虑到在机器运行过程中 Reduce阶段每个相同的Key会由一个ReduceTask来处理,而java共有十六万个
阅读全文
posted @ 2019-08-29 19:41 Sprio丨往昔
阅读(1456)
评论(0)
推荐(0)
编辑
Hadoop基础——HDFS、MapReduce、Yarn的运行原理和机制
摘要: Hadoop 的最基础Hdfs MapReduce Yarn组件的运行原理
阅读全文
posted @ 2019-08-29 14:33 Sprio丨往昔
阅读(562)
评论(0)
推荐(0)
编辑
2019年7月30日
JavaScript基础
摘要: 简单的运用Js操作Html
阅读全文
posted @ 2019-07-30 14:06 Sprio丨往昔
阅读(206)
评论(0)
推荐(0)
编辑
2019年7月10日
mysql 基本操作
摘要: 二、数据库的练习
阅读全文
posted @ 2019-07-10 16:27 Sprio丨往昔
阅读(445)
评论(0)
推荐(0)
编辑
2019年6月19日
初学——java反射
摘要: 一、反射 1.什么是反射 反射是指在程序运行期间,能够观察和修改类或者类的对象的属性和行为的特性 2.为什么用反射 在java中有动态和静态的概念 静态是指在java中所有的类都编写好编译通过运行 动态是在在编写好类,编译运行中动态获取类的信息修改类的属性叫做反射. 例如:在已经运行的大项目中需要修
阅读全文
posted @ 2019-06-19 18:54 Sprio丨往昔
阅读(184)
评论(0)
推荐(0)
编辑
2019年6月18日
Java初学—多线程
摘要: 一、进程和线程的区别 进程是指程序的应用实例,会占用独立的内存空间和系统资源 线程是指CPU的调度和分派的基本单位,统一程序 执行多个操作叫做线程 1.什么是多线程 如果在一个进程中同时运行了多个线程,用来完成不同的工作,则称之为“多线程” 多个线程交替占用CPU资源,而非真正的并行执行 2.多线程
阅读全文
posted @ 2019-06-18 17:30 Sprio丨往昔
阅读(172)
评论(0)
推荐(0)
编辑
下一页
公告