随笔分类 -  Hadoop

摘要:环境准备 flink-1.10.0-bin-scala_2.11.tgz(Flink 1.10) Ubantu 18.04 scala 2.11.x Jdk1.8+ IDEA/Eclipse开发工具 Flink 是一个分布式的流处理框架,它能够对有界和无界的数据流进行高效的处理。Flink 的核心是 阅读全文
posted @ 2020-12-28 09:47 cgl_dong 阅读(736) 评论(0) 推荐(0) 编辑
摘要:Flume 1.6.0 Flume简介 Apache Flume 是一个分布式,高可用的数据收集系统。它可以从不同的数据源收集数据,经过聚合后发送到存储系统中,通常用于日志数据的收集。Flume 分为 NG 和 OG (1.0 之前) 两个版本,NG 在 OG 的基础上进行了完全的重构,是目前使用最 阅读全文
posted @ 2020-12-28 09:44 cgl_dong 阅读(164) 评论(0) 推荐(0) 编辑
摘要:SparkSQL是Spark的一个子模块,主要用于操作结构化数据,借鉴了Hive。 此前使用的是SparkCore模块的RDD结构进行数据处理,SparkSQL提供了结构化的数据结构DataFrame、DataSet。 SparkSQL支持SQL、DSL(domain-specific langua 阅读全文
posted @ 2020-12-22 13:33 cgl_dong 阅读(223) 评论(0) 推荐(0) 编辑
摘要:处理数据常用的语言,使用基本的api处理一个wordcount 读取文件,找出单词(转大写)出现次数,并排序,获取TopK数据。 scala语言 def main(args: Array[String]): Unit = { //读取文件 val source: BufferedSource = S 阅读全文
posted @ 2020-12-16 11:25 cgl_dong 阅读(82) 评论(0) 推荐(0) 编辑
摘要:Spark 可以使用scala、Java、Sql、Python、R语言进行开发。 在bin目录下也提供了spark-shell、spark-sql、sparkR、pyspark等交互方式。 SparkSQL实现了Hive的模型、Hive在新版本中也建议使用Spark作为计算引擎。 一、Spark实现 阅读全文
posted @ 2020-11-25 11:24 cgl_dong 阅读(365) 评论(0) 推荐(1) 编辑
摘要:前置工具及环境 Hadoop 2.7.3 sqoop 1.4.6 mysql 8 mysql-connector-java-8.0.20.jar java-json.jar 一、简介 Sqoop 是一个常用的数据迁移工具,主要用于在不同存储系统之间实现数据的导入与导出: 导入数据:从 MySQL,O 阅读全文
posted @ 2020-11-25 11:18 cgl_dong 阅读(311) 评论(0) 推荐(0) 编辑
摘要:大数据实践(八)--Hive、Pig安装及基本操作 mysql-connector-java-8.0.16.jar hadoop 2.7.3 hive 2.7.3 pig 0.12.0 一、简介 Hive 是一个构建在 Hadoop 之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类 SQL 阅读全文
posted @ 2020-11-10 10:41 cgl_dong 阅读(371) 评论(0) 推荐(0) 编辑
摘要:大数据实验(七)Spark单机安装及WordCount(TopKey) 前置环境 Ubuntu 16.04 hadoop 2.7.3 Spark 3.0.0-preview2 scala 2.12.10 (对应Spark版本) maven 3+ spark-core_2.12 (maven中开发Sp 阅读全文
posted @ 2020-11-10 10:40 cgl_dong 阅读(140) 评论(0) 推荐(0) 编辑
摘要:大数据实践(六)--hbase集群搭建(Ubuntu) 之前搭建了单机hbase,这里搭建集群。 hbase是分布式数据库,自身携带了zookeeper,可以自行组建分布式。为了保证高可用,使用外置的zookeeper搭建集群。 一、集群搭建 1、解压 使用tar命令解压到/usr/local下 t 阅读全文
posted @ 2020-06-06 03:43 cgl_dong 阅读(192) 评论(0) 推荐(0) 编辑
摘要:大数据实践(五)--Zookeeper集群搭建(Ubuntu) 一、简介 Zookeeper 是一个开源的分布式协调服务,目前由 Apache 进行维护。Zookeeper 可以用于实现分布式系统中常见的发布/订阅、负载均衡、命令服务、分布式协调/通知、集群管理、Master 选举、分布式锁和分布式 阅读全文
posted @ 2020-06-06 03:40 cgl_dong 阅读(124) 评论(0) 推荐(0) 编辑
摘要:大数据实验(四)MapReduce编程实践(Ubuntu) 前置工具及环境 Ubuntu 16.4 VirtualBox Hadoop 2.7.3 jdk1.8 一、MapReduce简介 MapReduce是Hadoop提供的一个分布式计算框架,MapReduce 作业通过将输入的数据集拆分为独立 阅读全文
posted @ 2020-06-06 03:35 cgl_dong 阅读(1987) 评论(0) 推荐(0) 编辑
摘要:大数据实践(三) Hadoop集群搭建(Ubuntu) 前置环境 原单机配置前置环境: hadoop2.7.3 Ubuntu16 VirtualBox jdk1.8 还需要yarn管理集群 [TOC] 001、整体路线 使用虚拟机搭建三个节点,分别名为master、node2、node3. 由于我的 阅读全文
posted @ 2020-05-22 10:21 cgl_dong 阅读(260) 评论(0) 推荐(0) 编辑
摘要:大数据实践(二) Hdfs常见操作及Hbase安装 前置工具及环境 Ubuntu 16 VirtualBox Hadoop 2.7.3 hbase 一、Hdfs常见操作 Hdfs大部分操作和shell命令都是共通的。 001、启动hdfs辅助进程 002、创建、删除、查看目录 003、上传下载 pu 阅读全文
posted @ 2020-05-19 04:40 cgl_dong 阅读(378) 评论(0) 推荐(0) 编辑
摘要:大数据实践(一) Hadoop单机搭建(Ubuntu) 前置环境及工具: Ubuntu 16 VirtualBox Hadoop 2.7.3 xftp6 jdk1.8 [TOC] 1、VirtualBox环境准备 001、设置网卡 双网卡:选择桥接模式与仅主机模式。 保证主机与虚拟机之间相互ping 阅读全文
posted @ 2020-05-18 23:11 cgl_dong 阅读(277) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示
🚀
回顶
收起
  1. 1 404 not found REOL
404 not found - REOL
00:00 / 00:00
An audio error has occurred.