随笔分类 - 大型数据库技术应用
摘要:补充某天的hdfs课堂测试,具体是哪天的,我也不记得了 看一下题目 直接上代码了 package com.rsh.hdfs.test2; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataIn
阅读全文
摘要:HDFS 概述:向磁盘中写入数据的时间一般是读取时间的3倍。HDFS以流处理访问模式来存储文件的,一次写入,多次读取。磁盘存储文件时,是按照数据块来进行存储的,数据块是磁盘读写的最小单位。构建与的那个磁盘上的文件系统是通过磁盘块来管理文件系统,文件系统块的大小一般是磁盘块的整数倍。磁盘块的大小一般是
阅读全文
摘要:Hadoop YARN 直接源于MRv1在几个方面的缺陷,扩展性受限、单点故障、难以支持MR之外的计算。多计算框架各自为战,数据共享困难。 MR:离线计算框架,Storm:实时计算框架,Spark内存计算框架。 Hadoop 2.0有HDFS、MapReduce和YARN三个分支组成. HDFS:N
阅读全文
摘要:这周完成了简单的课堂测试: Result文件数据说明: Ip:106.39.41.166,(城市) Date:10/Nov/2016:00:01:02 +0800,(日期) Day:10,(天数) Traffic: 54 ,(流量) Type: video,(类型:视频video或文章article
阅读全文
摘要:这周完成内容——数据可视化操作之数据下钻 数据下钻操作很简单,步骤简单如下: 首先创建echarts实例,例如 var my_box1 = echarts.init(airport1); 通过实例的setoption()方法设置最上面的echarts图形。 var option = { title:
阅读全文
摘要:这周测试了Hive的数据分析,将样表的数据导入到HIVE的数据仓库中。 并进行了数据清洗,将day_id一列的数值清洗为真实的日期格式。 进行数据分信息处理,就是进行不同条件的查询,将查询到的数据导入到新的数据表中。 然后将查询的到的结果导入到mysql的数据库中。
阅读全文
摘要:hbase的连接与增删改查
阅读全文
摘要:大数据技术要解决的难题——海量数据要如何存储,海量数据要如何处理? 海量数据的存储问题不是现在才有的,在很早之前就用NFS(网络文件系统)将数据分开存储来解决海量数据的存储问题,但NFS有着明显的缺点。 对海量数据进行分析时不能充分运用多台计算机进行分析。 为解决第一个问题,从纵向扩展的角度来看,单
阅读全文
摘要:在上篇博客成功搭建好hadoop集群后,现在简单完成一下,通过jdbc连接hadoop上的hive. 如题,java连接hive就是类似连接mysql与sqlserver数据库的jdbc方式。 就是两个步骤,加载加载驱动程序,获取与数据库的连接。 先来看下配置pom.xml: <?xml versi
阅读全文
摘要:Hadoop集群的搭建与安装 本周主要学习了hadoop集群的搭建与安装,先来讲述一下安装的过程,在安装过程中遇到的问题。 首先先安装虚拟机软件vmware,然后准备安装三台虚拟机,一台主节点,两台从节点。注意电脑的配置,不然同时开启三台虚拟机会很卡。 我安装的linux系统是CentOs7(没有图
阅读全文