Hadoop - 随笔分类 - cgl_dong

大数据实践（十三） Flink基本使用

摘要：环境准备 flink-1.10.0-bin-scala_2.11.tgz（Flink 1.10） Ubantu 18.04 scala 2.11.x Jdk1.8+ IDEA/Eclipse开发工具 Flink 是一个分布式的流处理框架，它能够对有界和无界的数据流进行高效的处理。Flink 的核心是阅读全文

posted @ 2020-12-28 09:47 cgl_dong 阅读(736) 评论(0) 推荐(0) 编辑

大数据实践（十二） Flume 基本使用

摘要：Flume 1.6.0 Flume简介 Apache Flume 是一个分布式，高可用的数据收集系统。它可以从不同的数据源收集数据，经过聚合后发送到存储系统中，通常用于日志数据的收集。Flume 分为 NG 和 OG (1.0 之前) 两个版本，NG 在 OG 的基础上进行了完全的重构，是目前使用最阅读全文

posted @ 2020-12-28 09:44 cgl_dong 阅读(164) 评论(0) 推荐(0) 编辑

大数据实践（十一）SparkSQL模块基础

摘要：SparkSQL是Spark的一个子模块，主要用于操作结构化数据，借鉴了Hive。此前使用的是SparkCore模块的RDD结构进行数据处理，SparkSQL提供了结构化的数据结构DataFrame、DataSet。 SparkSQL支持SQL、DSL（domain-specific langua 阅读全文

posted @ 2020-12-22 13:33 cgl_dong 阅读(223) 评论(0) 推荐(0) 编辑

WordCount（Java、Scala、Python）

摘要：处理数据常用的语言，使用基本的api处理一个wordcount 读取文件，找出单词（转大写）出现次数，并排序，获取TopK数据。 scala语言 def main(args: Array[String]): Unit = { //读取文件 val source: BufferedSource = S 阅读全文

posted @ 2020-12-16 11:25 cgl_dong 阅读(82) 评论(0) 推荐(0) 编辑

大数据实践（十） Spark多种开发语言、与Hive集成

摘要：Spark 可以使用scala、Java、Sql、Python、R语言进行开发。在bin目录下也提供了spark-shell、spark-sql、sparkR、pyspark等交互方式。 SparkSQL实现了Hive的模型、Hive在新版本中也建议使用Spark作为计算引擎。一、Spark实现阅读全文

posted @ 2020-11-25 11:24 cgl_dong 阅读(365) 评论(0) 推荐(1) 编辑

大数据实践（九）--sqoop安装及基本操作

摘要：前置工具及环境 Hadoop 2.7.3 sqoop 1.4.6 mysql 8 mysql-connector-java-8.0.20.jar java-json.jar 一、简介 Sqoop 是一个常用的数据迁移工具，主要用于在不同存储系统之间实现数据的导入与导出：导入数据：从 MySQL，O 阅读全文

posted @ 2020-11-25 11:18 cgl_dong 阅读(311) 评论(0) 推荐(0) 编辑

大数据实践（八）--Hive、Pig安装及基本操作

摘要：大数据实践（八）--Hive、Pig安装及基本操作 mysql-connector-java-8.0.16.jar hadoop 2.7.3 hive 2.7.3 pig 0.12.0 一、简介 Hive 是一个构建在 Hadoop 之上的数据仓库，它可以将结构化的数据文件映射成表，并提供类 SQL 阅读全文

posted @ 2020-11-10 10:41 cgl_dong 阅读(371) 评论(0) 推荐(0) 编辑

大数据实践（七）--Spark单机安装及WordCount(TopKey)

摘要：大数据实验（七）Spark单机安装及WordCount(TopKey) 前置环境 Ubuntu 16.04 hadoop 2.7.3 Spark 3.0.0-preview2 scala 2.12.10 （对应Spark版本） maven 3+ spark-core_2.12 （maven中开发Sp 阅读全文

posted @ 2020-11-10 10:40 cgl_dong 阅读(140) 评论(0) 推荐(0) 编辑

大数据实践（六）--hbase集群搭建（Ubuntu）

摘要：大数据实践（六）--hbase集群搭建（Ubuntu）之前搭建了单机hbase,这里搭建集群。 hbase是分布式数据库，自身携带了zookeeper，可以自行组建分布式。为了保证高可用，使用外置的zookeeper搭建集群。一、集群搭建 1、解压使用tar命令解压到/usr/local下 t 阅读全文

posted @ 2020-06-06 03:43 cgl_dong 阅读(192) 评论(0) 推荐(0) 编辑

大数据实践（五）--Zookeeper集群搭建（Ubuntu）

摘要：大数据实践（五）--Zookeeper集群搭建（Ubuntu）一、简介 Zookeeper 是一个开源的分布式协调服务，目前由 Apache 进行维护。Zookeeper 可以用于实现分布式系统中常见的发布/订阅、负载均衡、命令服务、分布式协调/通知、集群管理、Master 选举、分布式锁和分布式阅读全文

posted @ 2020-06-06 03:40 cgl_dong 阅读(124) 评论(0) 推荐(0) 编辑

大数据实验（四）MapReduce编程实践（Ubuntu)

摘要：大数据实验（四）MapReduce编程实践（Ubuntu) 前置工具及环境 Ubuntu 16.4 VirtualBox Hadoop 2.7.3 jdk1.8 一、MapReduce简介 MapReduce是Hadoop提供的一个分布式计算框架，MapReduce 作业通过将输入的数据集拆分为独立阅读全文

posted @ 2020-06-06 03:35 cgl_dong 阅读(1987) 评论(0) 推荐(0) 编辑

大数据实践（三）--Hadoop集群搭建（Ubuntu）

摘要：大数据实践（三） Hadoop集群搭建（Ubuntu）前置环境原单机配置前置环境： hadoop2.7.3 Ubuntu16 VirtualBox jdk1.8 还需要yarn管理集群 [TOC] 001、整体路线使用虚拟机搭建三个节点，分别名为master、node2、node3. 由于我的阅读全文

posted @ 2020-05-22 10:21 cgl_dong 阅读(260) 评论(0) 推荐(0) 编辑

大数据实践（二）--Hdfs常见操作及Hbase安装

摘要：大数据实践（二） Hdfs常见操作及Hbase安装前置工具及环境 Ubuntu 16 VirtualBox Hadoop 2.7.3 hbase 一、Hdfs常见操作 Hdfs大部分操作和shell命令都是共通的。 001、启动hdfs辅助进程 002、创建、删除、查看目录 003、上传下载 pu 阅读全文

posted @ 2020-05-19 04:40 cgl_dong 阅读(378) 评论(0) 推荐(0) 编辑

大数据实践（一）--Hadoop单机搭建（Ubuntu）

摘要：大数据实践（一） Hadoop单机搭建（Ubuntu）前置环境及工具： Ubuntu 16 VirtualBox Hadoop 2.7.3 xftp6 jdk1.8 [TOC] 1、VirtualBox环境准备 001、设置网卡双网卡：选择桥接模式与仅主机模式。保证主机与虚拟机之间相互ping 阅读全文

posted @ 2020-05-18 23:11 cgl_dong 阅读(277) 评论(0) 推荐(0) 编辑

cgl_dong

随笔分类 - Hadoop

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论