2018 年 7月随笔档案 - 嘣嘣嚓

HDFS存档

摘要：Hadoop存档每个文件均按块方式存储，每个块的元数据存储在namenode的内存中，因此Hadoop存储小文件会非常低效。因为大量的小文件会耗尽namenode中的大部分内存。存储小文件所需的磁盘容量和存储这些文件原始内容所需要的磁盘空间相比不会增多。例如，一个1MB的文件以大小为128MB的块阅读全文

posted @ 2018-07-31 22:50 嘣嘣嚓阅读(421) 评论(0) 推荐(0) 编辑

HDFS数据复本存放

摘要：复本怎么放Hadoop的默认布局策略是在运行客户端的节点上放第一个复本（如果客户端运行在容器之外，就随机选择一个节点，不过系统会避免挑选那些存储太满或太忙的节点）。第二个复本放在与第一个不通且随机另外选择的机架中节点上（离架）。第三个复本与第二个复本放在同一个机架上，且随机选择另一个节点，其他复本放阅读全文

posted @ 2018-07-30 22:13 嘣嘣嚓阅读(236) 评论(0) 推荐(0) 编辑

HDFS数据流-剖析文件读取及写入

摘要：HDFS数据流-剖析文件读取及写入文件读取 1. 客户端通过调用FileSystem对象的open方法来打开希望读取的文件，对于HDFS来说，这个对象是分布式文件系统的一个实例。2. DistributedFileSystem通过使用RPC来调用namenode，以确定文件起始块的位置。对于每一个阅读全文

posted @ 2018-07-30 22:12 嘣嘣嚓阅读(495) 评论(0) 推荐(0) 编辑

HDFS请求接口

摘要：通过HTTP来访问HDFS有两种方法：直接访问，HDFS后台进程直接服务于来自客户端的请求；通过代理(一对多)访问，客户端通常使用DistributedFileSystemAPI访问HDFS。第一种情况，由namenode内嵌的web服务器（运行在50070端口上）提供目录服务，目录列表以XML或者阅读全文

posted @ 2018-07-30 22:10 嘣嘣嚓阅读(1105) 评论(0) 推荐(0) 编辑

HDFS文件访问权限

摘要：HDFS中的文件访问权限针对文件和目录，HDFS的权限模式与POSIX非常相似一共提供三类权限模式:只读权限（r）、写入权限（w）和可执行权限（x）。读取文件或列出目录内容时需要只读权限。写入一个文件或是在一个目录上新建及删除文件或目录，需要写入权限。对于文件而言，可执行权限可以忽略，因为你不能再阅读全文

posted @ 2018-07-30 22:08 嘣嘣嚓阅读(1013) 评论(0) 推荐(0) 编辑

HDFS的设计

摘要：当数据集的大小超过一台独立的物理计算机的存储能力时，就有必要对它进行分区(partition)并存储到若干台单独的计算机上。管理网络中跨多台计算机存储的文件系统成为分布式文件系统(distributed filesystem)。该系统架构于网络之上，势必会引入网络编程的复杂性，因此分布式文件系统比普阅读全文

posted @ 2018-07-30 22:07 嘣嘣嚓阅读(209) 评论(0) 推荐(0) 编辑

HDFS相关概念

摘要：数据块每个磁盘都有默认的数据块大小，这是磁盘进行数据读写的最小单位。构建与单个磁盘之上的文件系统通过磁盘块来管理该文件系统中的快。该文件系统块的大小可以使磁盘块的整数倍。文件系统块一般为几千字节，而磁盘块一般为512字节。HDFS同样也有块(block)的概念，但是大得多，默认为64MB（Hado 阅读全文

posted @ 2018-07-23 22:06 嘣嘣嚓阅读(266) 评论(0) 推荐(0) 编辑

Solr新建collection时报错 Caused by: Direct buffer memory

摘要：错误如下内存不够了修改solr.in.sh（分配的内存看节点情况）重启即可。阅读全文

posted @ 2018-07-17 22:18 嘣嘣嚓阅读(279) 评论(0) 推荐(0) 编辑

SolrCloud 5.5.5 + Zookeeper + HDFS使用

摘要：安装sol r 三个节点192.168.1.231，192.168.1.234，192.168.1.235 下载安装包solr.tar.gz 解压 tar -zxvf solr.tar.gz 配置ZK 编辑solr.in.sh 修改ZK_HOST 修改SOLR_HOST（所在节点主机IP）启动浏阅读全文

posted @ 2018-07-17 22:10 嘣嘣嚓阅读(566) 评论(0) 推荐(0) 编辑

Solr 报错：java.lang.NoClassDefFoundError: org/apache/http/entity/mime/content/ContentBody

摘要：HBase协处理器中使用Solr时报错，如下可看到提示说找不到类如果是HBase协处理器使用，建议打jar包时将依赖也打进jar包，在pom中添加 maven install打包即可。阅读全文

posted @ 2018-07-13 16:00 嘣嘣嚓阅读(4241) 评论(0) 推荐(0) 编辑

Spark-运行时架构

摘要：Spark运行时架构在分布式环境下，Spark集群采用的时主/从结构。在一个Spark集群中，有一个节点负责中央协调，调度各个分布式工作节点。这个中央协调节点被称为驱动器(Driver)，与之对应的工作节点被称为执行器节点(executor).驱动器节点可以和大量的执行器节点进行通信，它们也都作为阅读全文

posted @ 2018-07-08 22:37 嘣嘣嚓阅读(267) 评论(0) 推荐(0) 编辑

摘要：package com.test; import java.util.ArrayList; import java.util.List; import java.util.Map; import org.apache.spark.Partitioner; import org.apache.spark.SparkConf; import org.apache.spark.api.java.J... 阅读全文

posted @ 2018-07-02 16:47 嘣嘣嚓阅读(404) 评论(0) 推荐(0) 编辑

Spark常用算子-value数据类型的算子

摘要：package com.test; import java.util.ArrayList; import java.util.Arrays; import java.util.Iterator; import java.util.List; import java.util.Map; import org.apache.spark.SparkConf; import org.apache.s... 阅读全文

posted @ 2018-07-02 16:46 嘣嘣嚓阅读(407) 评论(0) 推荐(0) 编辑

嘣嘣嚓

07 2018 档案

HDFS存档

HDFS数据复本存放

HDFS数据流-剖析文件读取及写入

HDFS请求接口

HDFS文件访问权限

HDFS的设计

HDFS相关概念

Solr新建collection时报错 Caused by: Direct buffer memory

SolrCloud 5.5.5 + Zookeeper + HDFS使用

Solr 报错：java.lang.NoClassDefFoundError: org/apache/http/entity/mime/content/ContentBody

Spark-运行时架构

Spark常用算子-KeyValue数据类型的算子

Spark常用算子-value数据类型的算子

导航

公告

搜索

常用链接

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论