hadoop - 随笔分类 - 打杂滴

Hadoop Map/Reduce

摘要：MapReduce是Google提出的一个软件架构，用于大规模数据集（大于1TB）的并行运算。概念“Map（映射）”和“Reduce（归纳）” 映射和归纳映射一个映射函数就是对一些独立元素组成的概念上的列表（例如，一个测试成绩的列表）的每一个元素进行指定的操作（比如，有人发现所有学生的成绩都被高估阅读全文

posted @ 2024-01-03 16:08 打杂滴阅读(119) 评论(0) 推荐(0) |

HDFS 原理解析

摘要：源自https://www.cnblogs.com/duanxz/p/3874009.html Namenode是整个文件系统的管理节点。它维护着整个文件系统的文件目录树，文件/目录的元信息和每个文件对应的数据块列表, 接收用户的操作请求。文件包括： ①fsimage:元数据镜像文件。存储某一时段阅读全文

posted @ 2018-09-28 17:22 打杂滴阅读(254) 评论(0) 推荐(0) |

pig latin

摘要：Load运算符你可以使用 Pig Latin 的 LOAD 运算符，从文件系统（HDFS / Local）将数据加载到Apache Pig中。语法 load语句由两部分组成，用“=”运算符分隔。在左侧，需要提到我们想要存储数据的关系的名称；而在右侧，我们需要定义如何存储数据。下面给出了 Load 阅读全文

posted @ 2018-06-15 15:33 打杂滴阅读(492) 评论(0) 推荐(0) |

Pig latin基础

摘要：pig的两种运行模式，local模式，mapreduce模式 local模式下，pig只能访问本地一台；在mapreduce模式下，pig可以访问一个hadoop集群和hdfs的安装位置。这时，pig将自动对这个集群进行分配和回收。因为pig系统可以自动对mapreduce程序进行优化，所以当用户使阅读全文

posted @ 2018-06-15 10:29 打杂滴阅读(826) 评论(0) 推荐(0) |

pig简介

摘要：Apache Pig是MapReduce的一个抽象。它是一个工具/平台，用于分析较大的数据集，并将它们表示为数据流。Pig通常与 Hadoop 一起使用；我们可以使用Apache Pig在Hadoop中执行所有的数据处理操作。要使用 Apache Pig 分析数据，程序员需要使用Pig Latin 阅读全文

posted @ 2018-06-15 10:28 打杂滴阅读(1570) 评论(0) 推荐(0) |

大数据相关常识

摘要：hadoop生态圈主要从hdfs底层存储，hbase数据库，hive数据仓库，flume收集，Kafka缓存，zookeeper分布式协调服务，spark大数据分析，sqoop数据互转 hdfs分布式文件系统，高容错的特点，可以部署在廉价的硬件上，设计目标：检查和快速修复硬件故障；流式访问；简化一阅读全文

posted @ 2018-06-15 10:28 打杂滴阅读(233) 评论(0) 推荐(0) |

Sqoop增量导入

摘要：Specifies the column to be examined when determining which rows to import. (the column should not be of type CHAR/NCHAR/VARCHAR/VARNCHAR/ LONGVARCHAR/ 阅读全文

posted @ 2018-06-06 16:32 打杂滴阅读(546) 评论(0) 推荐(0) |

sqoop1的安装以及数据导入导出测试

摘要：下载 wget http://mirror.bit.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz 解压 tar -zxf sqoop-1.99.7-bin-hadoop200.tar.gz 将mysql-connecto 阅读全文

posted @ 2018-05-29 10:51 打杂滴阅读(469) 评论(0) 推荐(0) |

sqoop1 与sqoop2的对比

摘要：Sqoop是一款开源的工具，主要用于在Hadoop和传统的数据库(mysql、postgresql等)进行数据的传递，可以将一个关系型数据库（例如：MySQL、Oracle、Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。 Sqoop中一大亮点阅读全文

posted @ 2018-05-29 10:21 打杂滴阅读(418) 评论(0) 推荐(0) |

sqoop2的使用测试

摘要：查看现有link sqoop:000> show link+ + + +| Name | Connector Name | Enabled |+ + + +| mysqllink | generic-jdbc-connector | true || mysql2 | generic-jdbc-con 阅读全文

posted @ 2018-05-28 14:14 打杂滴阅读(526) 评论(0) 推荐(0) |

sqoop2的安装配置

摘要：1.下载 wget http://mirror.bit.edu.cn/apache/sqoop/1.99.7/sqoop-1.99.7-bin-hadoop200.tar.gz 2.解压 tar -zxvf sqoop-1.99.7-bin-hadoop200.tar.gz -C /root/sqo 阅读全文

posted @ 2018-05-25 10:05 打杂滴阅读(283) 评论(0) 推荐(0) |

Hbase简介安装配置

摘要：HBase —— Hadoop Database的简称 ,hbase 是分布式，稀疏的，持久化的，多维有序映射，它基于行键rowkey，列键column key，时间戳timestamp建立索引。它是一个随机访问的存储和检索数据的平台。hbase 可以存储结构化，半结构化的数据 Hadoop使用分布阅读全文

posted @ 2018-05-15 15:46 打杂滴阅读(601) 评论(0) 推荐(0) |

HCatalog

摘要：Hcatalog是apache开源的对于表和底层数据管理统一服务平台阅读全文

posted @ 2018-05-11 18:01 打杂滴阅读(119) 评论(0) 推荐(0) |

DistCp 集群之间数据拷贝工具

摘要：DistCp（分布式拷贝）是用于大规模集群内部和集群之间拷贝的工具。可以将数据拷贝到另个一集群，也可以将另一个集群的数据拷贝到本集群。阅读全文

posted @ 2018-05-11 15:51 打杂滴阅读(113) 评论(0) 推荐(0) |

HDFS

摘要：HDFS简介 (Hadoop Distributed File System) ***************************************** fsimage，namenode的元数据镜像文件，保存在磁盘 editlog，namenode操作日志 fstime，最近一次的chec 阅读全文

posted @ 2017-12-06 15:31 打杂滴阅读(410) 评论(0) 推荐(0) |

努力，奋斗

公告

随笔分类 - hadoop