随笔分类 -  hadoop

摘要:MapReduce是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。概念“Map(映射)”和“Reduce(归纳)” 映射和归纳 映射一个映射函数就是对一些独立元素组成的概念上的列表(例如,一个测试成绩的列表)的每一个元素进行指定的操作(比如,有人发现所有学生的成绩都被高估 阅读全文

posted @ 2024-01-03 16:08 打杂滴 阅读(45) 评论(0) 推荐(0) 编辑 |

摘要:源自https://www.cnblogs.com/duanxz/p/3874009.html Namenode是整个文件系统的管理节点。它维护着整个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表, 接收用户的操作请求。 文件包括: ①fsimage:元数据镜像文件。存储某一时段 阅读全文

posted @ 2018-09-28 17:22 打杂滴 阅读(245) 评论(0) 推荐(0) 编辑 |

摘要:Load运算符 你可以使用 Pig Latin 的 LOAD 运算符,从文件系统(HDFS / Local)将数据加载到Apache Pig中。 语法 load语句由两部分组成,用“=”运算符分隔。在左侧,需要提到我们想要存储数据的关系的名称;而在右侧,我们需要定义如何存储数据。下面给出了 Load 阅读全文

posted @ 2018-06-15 15:33 打杂滴 阅读(475) 评论(0) 推荐(0) 编辑 |

摘要:pig的两种运行模式,local模式,mapreduce模式 local模式下,pig只能访问本地一台;在mapreduce模式下,pig可以访问一个hadoop集群和hdfs的安装位置。这时,pig将自动对这个集群进行分配和回收。因为pig系统可以自动对mapreduce程序进行优化,所以当用户使 阅读全文

posted @ 2018-06-15 10:29 打杂滴 阅读(742) 评论(0) 推荐(0) 编辑 |

摘要:hadoop生态圈 主要从hdfs底层存储,hbase数据库,hive数据仓库,flume收集,Kafka缓存,zookeeper分布式协调服务,spark大数据分析,sqoop数据互转 hdfs分布式文件系统,高容错的特点,可以部署在廉价的硬件上,设计目标:检查和快速修复硬件故障;流式访问;简化一 阅读全文

posted @ 2018-06-15 10:28 打杂滴 阅读(221) 评论(0) 推荐(0) 编辑 |

摘要:Apache Pig是MapReduce的一个抽象。它是一个工具/平台,用于分析较大的数据集,并将它们表示为数据流。Pig通常与 Hadoop 一起使用;我们可以使用Apache Pig在Hadoop中执行所有的数据处理操作。 要使用 Apache Pig 分析数据,程序员需要使用Pig Latin 阅读全文

posted @ 2018-06-15 10:28 打杂滴 阅读(1501) 评论(0) 推荐(0) 编辑 |

摘要:Specifies the column to be examined when determining which rows to import. (the column should not be of type CHAR/NCHAR/VARCHAR/VARNCHAR/ LONGVARCHAR/ 阅读全文

posted @ 2018-06-06 16:32 打杂滴 阅读(534) 评论(0) 推荐(0) 编辑 |

摘要:下载 wget http://mirror.bit.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz 解压 tar -zxf sqoop-1.99.7-bin-hadoop200.tar.gz 将mysql-connecto 阅读全文

posted @ 2018-05-29 10:51 打杂滴 阅读(458) 评论(0) 推荐(0) 编辑 |

摘要:Sqoop是一款开源的工具,主要用于在Hadoop和传统的数据库(mysql、postgresql等)进行数据的传递,可以将一个关系型数据库(例如:MySQL、Oracle、Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 Sqoop中一大亮点 阅读全文

posted @ 2018-05-29 10:21 打杂滴 阅读(390) 评论(0) 推荐(0) 编辑 |

摘要:查看现有link sqoop:000> show link+ + + +| Name | Connector Name | Enabled |+ + + +| mysqllink | generic-jdbc-connector | true || mysql2 | generic-jdbc-con 阅读全文

posted @ 2018-05-28 14:14 打杂滴 阅读(519) 评论(0) 推荐(0) 编辑 |

摘要:1.下载 wget http://mirror.bit.edu.cn/apache/sqoop/1.99.7/sqoop-1.99.7-bin-hadoop200.tar.gz 2.解压 tar -zxvf sqoop-1.99.7-bin-hadoop200.tar.gz -C /root/sqo 阅读全文

posted @ 2018-05-25 10:05 打杂滴 阅读(275) 评论(0) 推荐(0) 编辑 |

摘要:HBase —— Hadoop Database的简称 ,hbase 是分布式,稀疏的,持久化的,多维有序映射,它基于行键rowkey,列键column key,时间戳timestamp建立索引。它是一个随机访问的存储和检索数据的平台。hbase 可以存储结构化,半结构化的数据 Hadoop使用分布 阅读全文

posted @ 2018-05-15 15:46 打杂滴 阅读(595) 评论(0) 推荐(0) 编辑 |

摘要:Hcatalog是apache开源的对于表和底层数据管理统一服务平台 阅读全文

posted @ 2018-05-11 18:01 打杂滴 阅读(106) 评论(0) 推荐(0) 编辑 |

摘要:DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。可以将数据拷贝到另个一集群,也可以将另一个集群的数据拷贝到本集群。 阅读全文

posted @ 2018-05-11 15:51 打杂滴 阅读(107) 评论(0) 推荐(0) 编辑 |

摘要:HDFS简介 (Hadoop Distributed File System) ***************************************** fsimage,namenode的元数据镜像文件,保存在磁盘 editlog,namenode操作日志 fstime,最近一次的chec 阅读全文

posted @ 2017-12-06 15:31 打杂滴 阅读(376) 评论(0) 推荐(0) 编辑 |

随笔 - 224, 文章 - 0, 评论 - 1, 阅读 - 12万

Copyright © 2025 打杂滴
Powered by .NET 9.0 on Kubernetes

点击右上角即可分享
微信分享提示