随笔分类 - [89]Big Data
-
Impala简介PB级大数据实时查询分析引擎
摘要:1、Impala简介 • Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。 • 基于Hive使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点 • 是CDH平台首选的PB级大数据实时查询分析引擎 官网:http://www.cloudera.c 阅读全文
-
HBASE
摘要:Hadoop HBase协处理器 摘要: 说明:类似于RDBMS中触发器,允许用户在region服务器上运行自己的代码,在客户端用户不用关心操作具体在哪进行使用场景:权限控制,回调函数(钩子函数)、扫描统计等主要类:observer和endpointobserver:类似触发器,回调函数在特定事件发 阅读全文
-
sqoop工具从oracle导入数据2
摘要:sqoop工具从oracle导入数据 sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁,支持关系型数据库和hive、hdfs,hbase之间数据的相互导入,可以使用全表导入和增量导入 从RDBMS中抽取出的数据可以被MapReduce程序使用,也可以被类似Hive的工具使用;得到分 阅读全文
-
sqoop将oracle数据导入hdfs集群
摘要:使用sqoop将oracle数据导入hdfs集群 集群环境: hadoop1.0.0 hbase0.92.1 zookeeper3.4.3 hive0.8.1 sqoop-1.4.1-incubating__hadoop-1.0.0.tar 首先,当然前提是Hadoop集群环境已经搭建好了。如没有搭 阅读全文
-
Hadoop
摘要:wangkeustc wangkeustc hadoop以及相关组件介绍以及个人理解 前言 本人是由java后端转型大数据方向,目前也有近一年半时间了,不过我平时的开发平台是阿里云的Maxcompute,通过这么长时间的开发,对数据仓库也有了一定的理解,ETL这些经验还算比较丰富。但是由于Maxco 阅读全文
-
Impala-1
摘要:Impala相关操作上 阅读目录 序 数据库相关 表相关 系列索引 序 上一篇,我们介绍Impala的介绍及安装。 下面我们开始继续进一步的了解Impala的相关操作。 数据库相关 一:创建 在这里,数据库就是一个目录结构,当然对于的元数据还会持久化到关系型数据库。 create database 阅读全文
-
安装Zookeeper集群
摘要:Zookeeper集群的安装教程 安装前说明: 1、 zookeeper对内存的消耗比较大,在安装zookeeper的时候要安装在内存比较大的机器中。 2、 zookeeper安装需要是基数台机器,因为zookeeper默认半数以上(不包含半数)的机器正常运行时正常使用,低于半数(不包含半数)就不能 阅读全文
-
adoop集群动态添加和删除节点
摘要:hadoop集群动态添加和删除节点说明 上篇博客我已经安装了Hadoop集群(hadoop集群的安装步骤和配置),现在写这个博客我将在之前的基础上进行节点的添加的删除。 首先将启动四台机器(一主三从)组成的hadoop集群,还是要提醒一句,在启动集群的时候一定要切换到hadoop用户下,并使用jps 阅读全文
-
安装和配置hadoop集群步骤
摘要:hadoop集群的安装步骤和配置 hadoop是由java语言编写的,首先我们肯定要在电脑中安装jdk,配置好jdk的环境,接下来就是安装hadoop集群的步骤了,在安装之前需要创建hadoop用户组和用户,另外我此时使用的是一主(master)三从(slave1、slave2、slave3)。 1 阅读全文
-
hadoop fs 命令
摘要:hadoop fs 命令 1,Hadoop fs –fs [local | <file system URI>]:声明hadoop使用的文件系统,如果不声明的话,使用当前配置文件配置的,按如下顺序查找:hadoop jar里的hadoop-default.xml->$HADOOP_CONF_DIR下 阅读全文
-
解决hadoop 集群启动常见错误办法
摘要:hadoop 集群常见错误解决办法 hadoop 集群常见错误解决办法: (一)启动Hadoop集群时易出现的错误: 1. 错误现象:Java.NET.NoRouteToHostException: No route to host. 原因:master服务器上的防火墙没有关闭。 解决方法: 在ma 阅读全文
-
hadoop 集群常见错误解决办法
摘要:hadoop 集群常见错误解决办法 hadoop 集群常见错误解决办法: (一)启动Hadoop集群时易出现的错误: 1. 错误现象:Java.NET.NoRouteToHostException: No route to host. 原因:master服务器上的防火墙没有关闭。 解决方法: 在ma 阅读全文
-
hadoop datanode 和 tasktracker起不来
摘要:本篇文章主要介绍了"hadoop datanode 和 tasktracker起不来。",主要涉及到hadoop datanode 和 tasktracker起不来。方面的内容,对于hadoop datanode 和 tasktracker起不来。感兴趣的同学可以参考一下。 用JPS检查slave1 阅读全文
-
Spark程序
摘要:Spark认识&环境搭建&运行第一个Spark程序 2017-07-09 17:17 by 牛仔裤的夏天, 181 阅读, 0 评论, 收藏, 编辑 摘要:Spark作为新一代大数据计算引擎,因为内存计算的特性,具有比hadoop更快的计算速度。这里总结下对Spark的认识、虚拟机Spark安装、S 阅读全文
-
Mapreduce简要原理与实践
摘要:探索Mapreduce简要原理与实践 目录-探索mapreduce 1、Mapreduce的模型简介与特性?Yarn的作用? 2、mapreduce的工作原理是怎样的? 3、配置Yarn与Mapreduce、演示Mapreduce例子程序 4、javaApi开发Mapreduce程序 发散思考-入门 阅读全文
-
订单大数据
摘要:每天4亿行SQLite订单大数据测试(源码) SQLite单表4亿订单,大数据测试 SQLite作为嵌入式数据库的翘楚,广受欢迎!新生命团队自2010年以来,投入大量精力对SQLite进行学习研究,成功应用于各系统非致命数据场合。 SQLite极致性能 关闭同步,Synchronous=Off,提升 阅读全文
-
业务线日志系统
摘要:业务线日志系统如何收集处理? 在互联网迅猛发展的今天 各大厂发挥十八般武艺的收集用户的各种信息,甚至包括点击的位置,我们也经常发现自己刚搜完一个东西,再打开网页时每个小广告都会出现与之相关联的商品或信息,在感叹智能的同时不惊想 什么时候泄露的行踪。 许多公司的业务平台每天都会产生大量的日志数据。收集 阅读全文
-
Spark探索经典数据集MovieLens
摘要:Spark探索经典数据集MovieLens 阅读目录 前言 环境 初步预览 探索用户数据 探索电影数据 探索评级数据 阅读目录 前言 环境 初步预览 探索用户数据 探索电影数据 探索评级数据 回到顶部 前言 MovieLens数据集包含多个用户对多部电影的评级数据,也包括电影元数据信息和用户属性信息 阅读全文
-
实时增量索引
摘要:实时更新索引 1.引子 公司的底层检索引擎已经用了10年,很稳定也没有很大的重构需求,直到最近PM报了很多数据更新不及时的问题, 加上最近我也有个想法实现一个轻量级的检索引擎,于是用了不到2个月算是完成第1版(github地址:https://github.com/dodng/comse) 一是尝试 阅读全文
-
处理大并发量订单处理的 KafKa部署总结
摘要:处理大并发量订单处理的 KafKa部署总结 今天要介绍的是消息中间件KafKa,应该说是一个很牛的中间件吧,背靠Apache 与很多有名的中间件搭配起来用效果更好哦 ,为什么不用RabbitMQ,因为公司需要它。 网上已经有很多怎么用和用到哪的内容,但结果很多人都倒在了入门第一步 环境都搭不起来,可 阅读全文