摘要: Session机制 JSESSIONID是Session的标识,当客户端请求服务器端的时候,服务器端会检查是否已经给这个客户端创建过Session,也就是看客户端的请求中的header是否有Cookie:JSESSIONID=…,如果客户端请求包含JSESSIONID,那么服务器端可以根据JSESS 阅读全文
posted @ 2018-12-13 22:48 匠人先生 阅读(1413) 评论(0) 推荐(1) 编辑
摘要: linux常用命令之文本替换 1 vi vi test_file :%s/h/h1/g 注释:全文替换,将h替换为h1 :1,4s/h/h1/g 注释:将第1行到第4行的h替换为h1 :%s/\n/,/g 注释:将换行符替换为, 2 sed sed -e 's/h/h1/g' test_file 注 阅读全文
posted @ 2018-12-13 18:04 匠人先生 阅读(5866) 评论(0) 推荐(1) 编辑
摘要: 对文件进行词频统计,是一个大数据领域的hello word级别的应用,来看下实现有多少种: 1 Linux单机处理 egrep -o "\b[[:alpha:]]+\b" test_word.log|sort|uniq -c|sort -rn|head -10 2 Scala单机处理(Array) 阅读全文
posted @ 2018-12-13 17:29 匠人先生 阅读(3322) 评论(0) 推荐(0) 编辑
摘要: linux服务器服务器间拷贝文件,有几种方式: 1 如果是定时任务,可以用rsync 2 如果是基于ssh登录,可以用scp,优点是可以实现远程到远程的拷贝,缺点是需要账号密码 upload: scp $local_file $remote_username@$remote_ip:$remote_f 阅读全文
posted @ 2018-12-13 17:06 匠人先生 阅读(1175) 评论(0) 推荐(0) 编辑
摘要: 官方文档如下: http://oozie.apache.org/docs/5.0.0/AG_OozieUpgrade.html 这里写的比较简单,大概过程如下:1 下载5.0代码并编译;2 解压5.0包并替换oozie-site.xml;3 停掉所有的流程;4 按照官方文档说的升级DB;5 重新启动 阅读全文
posted @ 2018-12-13 16:35 匠人先生 阅读(569) 评论(0) 推荐(1) 编辑
摘要: yarn中有一个比较重要的配置yarn.nodemanager.local-dirs,如果配置的不好,在饱和状态运行下集群会出现很多问题:1 默认配置${hadoop.tmp.dir}/nm-local-dir,系统盘通常只有几百G,配置在这里会经常报磁盘空间不足的错误;2 配置到其中1个数据盘,比 阅读全文
posted @ 2018-12-13 16:24 匠人先生 阅读(8245) 评论(1) 推荐(0) 编辑
摘要: HDFS中的File由Block组成,一个File包含一个或多个Block,当创建File时会创建一个Block,然后根据配置的副本数量(默认是3)申请3个Datanode来存放这个Block; 通过hdfs fsck命令可以查看一个文件具体的Block、Datanode、Rack信息,例如: hd 阅读全文
posted @ 2018-12-13 15:59 匠人先生 阅读(2028) 评论(0) 推荐(0) 编辑
摘要: HDFS会周期性的检查是否有文件缺少副本,并触发副本复制逻辑使之达到配置的副本数, <property> <name>dfs.replication</name> <value>3</value> </property> 具体实现是在BlockManager中启动线程ReplicationMonit 阅读全文
posted @ 2018-12-13 15:39 匠人先生 阅读(2653) 评论(0) 推荐(1) 编辑
摘要: 公司一个kylin集群,每到周二下午就会逐个节点OOM退出,非常有规律,kylin集群5个节点,每个节点分配的内存已经不断增加到70多G,但是问题依旧; 经排查发现,每周二下午kylin集群的请求量确实会多一些,有可能是kylin的bug,也可能是其他原因,当节点kylin进程内存占用上升时,打印线 阅读全文
posted @ 2018-12-13 11:40 匠人先生 阅读(865) 评论(0) 推荐(1) 编辑