摘要:
关于double和decimal类型, double类型能表示的精度不如decimal,但是其数据范围比decimal的大。 对于double类型的字段,用sum函数会出现多位小数的情况,比如a+b+c原来的值应该是556361.927,但用sum函数得到的却是556361.9269999999 而 阅读全文
摘要:
Sqoop连接MySQL报异常。这个异常是数据库只允许localhost或127.0.0.1访问,不允许远程访问。我用的本机IP都不行。 解决办法:修改访问权限即可。 打开cmd,进入mysql flush privileges是为了将权限更新操作刷新到内存中,而不用下次启动时生效。 阅读全文
摘要:
1.什么是Comparable接口 此接口强行对实现它的每个类的对象进行整体排序。此排序被称为该类的自然排序 ,类的 compareTo 方法被称为它的自然比较方法 。实现此接口的对象列表(和数组)可以通过 Collections.sort (和 Arrays.sort )进行自动排序。实现此接口的 阅读全文
摘要:
HDFS 机架感知与副本放置策略 机架感知(RackAwareness) 通常,大型 Hadoop 集群会分布在很多机架上,在这种情况下, 希望不同节点之间的通信能够尽量发生在同一个机架之内,而不是跨机架。 为了提高容错能力,名称节点会尽可能把数据块的副本放到多个机架上。 综合考虑这两点的基础上 H 阅读全文
摘要:
HDFS 内部工作机制 HDFS集群分为两大角色:NameNode、DataNode (Secondary Namenode) NameNode 负责管理整个文件系统的元数据 DataNode 负责管理用户的文件块(Block) 文件会按照固定的大小(默认 128 M)切成若干文件块(Block)后 阅读全文
摘要:
HDFS Shell 操作 HDFS Shell 命令行格式 格式一:hadoop fs –命令名 参数 格式二:hdfs dfs –命令名 参数 HDFS 常用命令及参数 ls:查看 hdfs 中的目录信息 [root@node-01 ~]# hadoop fs -ls / put或copyFro 阅读全文
摘要:
Hadoop 简介 Hadoop 是什么 Hadoop 是一个提供分布式存储和计算的开源软件框架,它具有无共享、高可用(HA)、弹性可扩展的特点,非常适合处理海量数量。 Hadoop 是一个开源软件框架 Hadoop 适合处理大规模数据 Hadoop 被部署在一个可扩展的集群服务器上 Hadoop 阅读全文
摘要:
HDFS 简介 集群与分布式 集群 集群是由多个完成相同功能的服务器节点组成的集合 集群中每个服务器节点处理相同的任务或存储相同的数据 集群的关键特性是可扩展性和高可用性(支持负载均衡、错误恢复) 分布式 分布式是将一个系统拆分为多个不同的子系统,每个子系统运行在一个服务器节点上,最终共同完成系统的 阅读全文
摘要:
Sharding (分片模式) 副本集可以解决主节点发生故障导致数据丢失或不可用的问题,但遇到需要存储海量数据的情况时,副本集机制就束手无策了。副本集中的一台机器可能不足以存储数据,或者说集群不足以提供可接受的读写吞吐量。这就需要用到 MongoDB 的分片(Sharding)技术,这也是 Mong 阅读全文
摘要:
副本集(Replica Set) 副本集概念 此集群拥有一个主节点(Master)和多个从节点(Slave),与主从复制模式类似,但是副本集与主从复制的区别在于:当集群中主节点发生故障时,副本集可以自动投票,选举出新的主节点,并引导其余的从节点连接新的主节点。 **MongoDB 的副本集是自带故障 阅读全文