03 2018 档案
摘要:mapred包是老的1.0的map reduce api mapreduce包是新的2.0的map reduce api
阅读全文
摘要:1 hadoop shuffle的地位 hadoop shuffle是map reduce算法的核心,是它连接了多个map和多个reduce,它将map的输出交给reduce作为输入。 2 hadoop shuffle工作在哪里 shuffle工作在map端 3 hadoop shuffle做了什么
阅读全文
摘要:1 exec builtin 不创建子shell,在原进程的上启动新的脚本,但是它会把老shell的环境清理掉,所以,它从原shell中什么也不继承,在一个干净的环境中执行新的脚本。执行完之后退出当前的shell。 2 source builtin 不创建子shell,在原进程上执行source的脚
阅读全文
摘要:1 ${BASH_SOURCE-$0} 表示当前正在执行的脚本的完整路径。 2 cd -P 以物理路径进入 /usr/localhadoop现在链到/home/houzhizhen/usr/local/Hadoop/hadoop-2.72目录。 cd -P /usr/local/hadoop pwd
阅读全文
摘要:它是一种标记。命令中的连续的两个横表明选项已经结束了,两个横后面的内容就是参数了,不再是选项了。
阅读全文
摘要:直接在etc/hadoop/hadoop-env.sh中 export JAVA_HOME=XXX
阅读全文
摘要:1 rsync用来同步配置文件 rsync用来同步两个文件夹,它拷贝的是二者的差异,因此速度很快。在hadoop脚本中,rsync用来同步配置文件。 2 HADOOP_SLAVE_SLEEP的用途 大型集群启动时,slave几乎是同时启动的,它们一下子都来向master节点要求同步,会导致maste
阅读全文
摘要:1 转自 http://www.ruanyifeng.com/blog/2011/12/ssh_remote_login.html 2 ssh远程登陆的原理 普通用户远程登陆 ssh jason@host root用户远程登陆 ssh root@host 如果本地用户名和远程用户名相同,可以直接ss
阅读全文
摘要:1 map reduce模型的本质 在map阶段,将数据分成一个一个的块,然后每个块分发给集群中的不同的机器处理,每个机器处理自己的块都会有一个结果; 在reduce阶段,将map阶段的到的结果汇总生成最终的结果。
阅读全文
摘要:1 String 基本的数据类型。 2 list 2.1 将元素放入一个list中 rpush mylist A rpush mylist B rpush mylist A 如果mylist本来是不存在的,这样的话,就会创建一个新的list,名字是mylist,它是一个linked list有三个元
阅读全文
摘要:1 value的最基本的数据类型是String 2 如果value是一张图片 先对图片进行base64编码成一个字符串,然后再保存到redis中,用的时候进行base64解码即可。 这是base64的一个很典型的使用场景。 3 如果value是一个integer 使用Integer对象,然后将对象存
阅读全文
摘要:1 为什么要用redis而不是直接用map、list等作为缓存 第一,redis可以供多个程序高并发使用,并且可以保证一致性,map、list只是一个程序私有的; 第二,redis可以提供持久化,map、list不能; 第三,redis支持分布式; 2 Jedis是redis的java客户端 3 什
阅读全文
摘要:1 eclipse debug configurations arguments指定文件路径参数 使用绝对路径,但是这个文件必须要放在该project的源码路径的外面才行,否则eclipse不认这个文件。 比如project的路径是/Users/xxxx/myworks/helloworld_pro
阅读全文
摘要:1 什么是base64编码 也就是使用64个可见字符来对任意数据进行编码,64个字符分别是A-Z、a-z、10个数字、+-。26x2+10+2=64. 2 为什么需要base64编码 为了传输的需要,因为有的路由器会处理一些特殊的控制字符。注意base64并不是为了加密。 3 什么场景下用base6
阅读全文
摘要:1 查询引擎 1.1 phoenix 1.2 stinger 1.3 presto 1.4 shark 1.5 pig 1.6 cloudera impala 1.7 apache drill 1.8 apache tajo 1.9 hive 2 流式计算 2.1 facebook puma 2.2
阅读全文
摘要:1 http 处理http请求相关的配置。 2 server,虚拟主机 2.1 什么是虚拟主机 虚拟主机是定义在http context下的server。 http { server { server configuration.... } } 一台物理机器虚拟成多台主机,每台虚拟主机独立对外提供w
阅读全文
摘要:1 nginx的负载均衡是由upstream模块提供的 2 nginx请求分配的五种方式 2.1 轮询 每个请求按照时间顺序逐一分配给后端服务器。 up_stream backend { server 192.168.1.10; server 192.168.1.11; } 2.2 指定权重 up_
阅读全文
摘要:1 保存iptables iptables-save > /etc/iptables.rules 2 创建启动文件 touch /etc/network/if-pre-up.d/iptables chmod +x /etc/network/if-pre-up.d/iptables 内容如下: #!/
阅读全文
摘要:1 tracker.conf 1.1 disabled=false 设置为false则该配置文件生效,否则屏蔽。 1.2 bind_addr= 程序监听地址,如果不设定则监听所有地址。 1.3 port=22122 tracker监听的端口。 1.4 connect_timeout=30 连接超时。
阅读全文
摘要:1 -A INPUT -m state --state NEW -m tcp -p tcp --dport 8888 -j ACCEPT -A INPUT是说,将后面的这个rule加入INPUT chain; -m state是让内核加载state模块; -m tcp是让内核加载tcp模块; --s
阅读全文
摘要:Thread.sleep不会改变锁的行为,如果当前线程拥有锁,那么当前线程sleep之后,该锁不会被释放。 Thread.sleep和Object.wait都会暂停当前的线程,让出cpu。Thread.sleep时间到了之后,线程可以被重新调度,但是线程被Object.wait暂停执行之后,必须要其
阅读全文
摘要:1 zookeeper是什么 它是一个分布式系统协调工具。 2 zookeeper用来做什么 它解决了分布式的进程之间的竞争问题。 3 哪些地方用到了zookeeper 3.1 唯一id生成 集群中需要唯一id,这个id由zookeeper生成。 3.2 统一配置 在zookeeper中设置配置,然
阅读全文
摘要:ssh-copy-id命令 它可以把本地主机的公钥复制到远程主机的authorized_keys文件上,ssh-copy-id命令也会给远程主机的用户主目录(home)和~/.ssh, 和~/.ssh/authorized_keys设置合适的权限。 ssh-copy-id -i ~/.ssh/id_
阅读全文
摘要:1 一个hadoop data node上运行一个region server region server和data node在同一台机器上,这样就保证了数据的局部性。 2 hbase region server的构成 2.1 WAL write ahead log。 2.2 MemStore 写缓存
阅读全文
摘要:1 队首阻塞 就是需要排队,队首的事情没有处理完的时候,后面的人都要等着。 2 http1.0的队首阻塞 对于同一个tcp连接,所有的http1.0请求放入队列中,只有前一个请求的响应收到了,然后才能发送下一个请求。 可见,http1.0的队首组塞发生在客户端。 3 http1.1的队首阻塞 对于同
阅读全文