随笔档案「2017年7月」 - liango

linux中bin与sbin目录的作用及区别介绍

摘要：linux中bin与sbin目录的作用及区别介绍本文介绍下，linux中的二个主要目录：bin与sbin，它们的作用与区别，学习linux的朋友可以参考下在linux系统中，有两个重要的目录：bin与sbin，分别包括/bin、/usr/bin/与/sbin、/usr/sbin/。 bin: bin为binary的简写，主要放置系统的必备执行文件，例如: cat、cp、chmod df、dmesg... 阅读全文

posted @ 2017-07-11 17:32 liango 阅读(1198) 评论(0) 推荐(0)

hadoop深入研究:(十三)——序列化框架

摘要：hadoop深入研究:(十三)——序列化框架Mapreduce之序列化框架（转自http://blog.csdn.net/lastsweetop/article/details/9376495）框架简介大部分的MapReduce程序都使用Writable键–值对作为输入和输出，但这并不是Hadoop强制使用的，其他序列化机制也能和Hadoop配合，并应用于MapReduce中。目前，除了前面介绍过... 阅读全文

posted @ 2017-07-10 03:14 liango 阅读(470) 评论(0) 推荐(0)

序列化和反序列化-刘丁

摘要：#一、定义以及相关概念互联网的产生带来了机器间通讯的需求，而互联通讯的双方需要采用约定的协议，序列化和反序列化属于通讯协议的一部分。通讯协议往往采用分层模型，不同模型每层的功能定义以及颗粒度不同，例如：TCP/IP协议是一个四层协议，而OSI模型却是七层协议模型。在OSI七层协议模型中展现层（Presentation Layer）的主要功能是把应用层的对象转换成一段连续的二进制串，或者反过来，把... 阅读全文

posted @ 2017-07-10 00:59 liango 阅读(14798) 评论(0) 推荐(0)

大数据框架hadoop的序列化机制

摘要：Java内建序列化机制在Windows系统上序列化的Java对象，可以在UNIX系统上被重建出来，不需要担心不同机器上的数据表示方法，也不需要担心字节排列次序。在Java中，使一个类的实例可被序列化非常简单，只需要在类声明中加入implements Serializable即可。Serializable接口是一个标志，不具有任何成员函数，其定义如下：public interface Seriali... 阅读全文

posted @ 2017-07-09 17:55 liango 阅读(389) 评论(0) 推荐(0)

JAVA 反序列化攻击

摘要：Java 对象分解成字节码过程叫做序列化，从字节码组装成 Java 对象的过程叫做反序列化，这两个过程分别对应于的 writeObject 和 readObject 方法。问题在于 readObject 在利用字节流组装 Java 对象时不会调用构造函数，也就意味着没有任何类型的检查，用户可以复写 readObject() 方法执行任何希望执行的代码。这可能会导致三方面问题：1. 序列化对象修改... 阅读全文

posted @ 2017-07-09 17:55 liango 阅读(624) 评论(0) 推荐(0)

Java的序列化算法--解释序列后字节含义

摘要：Java的序列化算法序列化算法一般会按步骤做如下事情：◆将对象实例相关的类元数据输出。◆递归地输出类的超类描述直到不再有超类。◆类元数据完了以后，开始从最顶层的超类开始输出对象实例的实际数据值。◆从上至下递归输出实例的数据我们用另一个更完整覆盖所有可能出现的情况的例子来说明： class parent implements Serializable { //超类 int p... 阅读全文

posted @ 2017-07-09 17:53 liango 阅读(1160) 评论(0) 推荐(0)

Hadoop序列化机制及实例

摘要：序列化1、什么是序列化？将结构化对象转换成字节流以便于进行网络传输或写入持久存储的过程。2、什么是反序列化？将字节流转换为一系列结构化对象的过程。序列化用途：1、作为一种持久化格式。 2、作为一种通信的数据格式。 3、作为一种数据拷贝、克隆机制。Java序列化和反序列化1、创建一个对象实现了Serializable 2、序列化：ObjectOutputStream.writeObject(... 阅读全文

posted @ 2017-07-09 15:13 liango 阅读(610) 评论(0) 推荐(0)

使用C++生成1-33中的6个随机数，无重复

摘要：生成1-33中的6个随机数，无重复------------------------------------------------------------------------ 方法1.每生成一个随机数，便于前面的所有随机数进行比较，如果有重复，则舍去不要，重新选取。但该方法十分费时，并且在数据量巨大的并且有一定限制的时候，会引发巨大问题。例如要生成10000个随机数，范围是0-9999，且不能... 阅读全文

posted @ 2017-07-09 01:26 liango 阅读(2260) 评论(0) 推荐(0)

HDFS概述（2）————Block块大小设置

摘要：参考：HDFS概述（4）————HDFS权限 HDFS概述（3）————HDFS Federation HDFS概述（2）————Block块大小设置 HDFS概述（1）————HDFS架构问题Q: 一个常被问到的一个问题是：如果一个HDFS上的文件大小(file size) 小于块大小(block size) ，那么HDFS会实际占用Linux file system的多大空间？A: 答案是实... 阅读全文

posted @ 2017-07-08 17:39 liango 阅读(699) 评论(0) 推荐(0)

分布式文件系统比较出名的有HDFS 和 GFS

摘要：分布式文件系统比较出名的有HDFS 和 GFS，其中HDFS比较简单一点。本文是一篇描述非常简洁易懂的漫画形式讲解HDFS的原理。比一般PPT要通俗易懂很多。不难得的学习资料。1、三个部分: 客户端、nameserver（可理解为主控和文件索引,类似Linux的inode）、datanode（存放实际数据）在这里，client的形式我所了解的有两种，通过Hadoop提供的api所编写的程序可以... 阅读全文

posted @ 2017-07-08 12:43 liango 阅读(12958) 评论(0) 推荐(2)

c++里面有没有什么办法做到判断某个给定的未知数是double类型还是int类型呢？

摘要：c++里面有没有什么办法做到判断某个给定的未知数是double类型还是int类型呢？如果只是double和int, 可以用sizeof12345678910111213141516171819202122#include using namespace std;#include int main(){ double a; double b; float c = 3.0; ... 阅读全文

posted @ 2017-07-07 15:03 liango 阅读(2145) 评论(0) 推荐(0)

About HDFS blocks

摘要：一个磁盘有它的块大小，代表着它能够读写的最小数据量。文件系统通过处理大小为一个磁盘块大小的整数倍数的数据块来运作这个磁盘。文件系统块一般为几千字节，而磁盘块一般为512个字节。这些信息，对于仅仅在一个文件上读或写任意长度的文件系统用户来说是透明的。但是，有些工具会维护文件系统，如df 和 fsck，它们都在系统块级上操作。HDFS也有块的概念，不过是更大的单元，默认为128MB。与单一磁盘上的文... 阅读全文

posted @ 2017-07-06 18:25 liango 阅读(285) 评论(0) 推荐(0)

hadoop深入学习之SequenceFile

摘要：大数据学习篇：hadoop深入浅出系列之HDFS（七） ——小文件解决方案 - 美丽的泡沫 - CSDN博客 - http://blog.csdn.net/stronglyh/article/details/48751749# 上一篇文章讲了HDFS的java操作，今天讲HDFS的小文件解决方案小文件指的是那些size比HDFS的block size(默认128M)小... 阅读全文

posted @ 2017-07-06 17:30 liango 阅读(1349) 评论(0) 推荐(0)

使用RawComparator加速Hadoop程序

摘要：使用RawComparator加速Hadoop程序在前面两篇文章[1][2]中我们介绍了Hadoop序列化的相关知识，包括Writable接口与Writable对象以及如何编写定制的Writable类，深入的分析了Writable类序列化之后占用的字节空间以及字节序列的构成。我们指出Hadoop序阅读全文

posted @ 2017-07-06 15:48 liango 阅读(368) 评论(0) 推荐(0)

Hadoop序列化与Writable接口(二)

摘要：Hadoop序列化与Writable接口(二) 上一篇文章Hadoop序列化与Writable接口（一）介绍了Hadoop序列化，Hadoop Writable接口以及如何定制自己的Writable类，在本文中我们继续Hadoop Writable类的介绍，这一次我们关注的是Writable实例序列阅读全文

posted @ 2017-07-06 14:28 liango 阅读(319) 评论(0) 推荐(0)

Hadoop序列化与Writable接口(一)

摘要：Hadoop序列化与Writable接口(一) 序列化序列化（serialization）是指将结构化的对象转化为字节流，以便在网络上传输或者写入到硬盘进行永久存储；相对的反序列化（deserialization）是指将字节流转回到结构化对象的过程。在分布式系统中进程将对象序列化为字节流，通过网阅读全文

posted @ 2017-07-05 18:46 liango 阅读(717) 评论(0) 推荐(0)

DataOutput接口实现类有：

摘要：FSDataOutputStreamfinal FSDataOutputStream create = fs.create(path); 阅读全文

posted @ 2017-07-05 17:14 liango 阅读(369) 评论(0) 推荐(0)

自定义分区函数

摘要：如何使生成的reduce files 按照key 全排序？------------------------------------------------------------------------ 1. 方法之一：自定义分区函数阅读全文

posted @ 2017-07-05 00:59 liango 阅读(276) 评论(0) 推荐(0)

Hadoop的单机模式、伪分布式模式和完全分布式模式

摘要：1.单机(非分布式)模式这种模式在一台单机上运行，没有分布式文件系统，而是直接读写本地操作系统的文件系统。 2.伪分布式运行模式这种模式也是在一台单机上运行，但用不同的Java进程模仿分布式运行中的各类结点: (NameNode,DataNode,JobTracker,TaskTracker,S 阅读全文

posted @ 2017-07-04 14:44 liango 阅读(8541) 评论(1) 推荐(1)

07 2017 档案

公告