11 2017 档案

摘要:1、redis之flushall、flushdb‘尴尬’操作恢复 redis是基于内存的一种高效数据库,在内存中高效但是不安全,重启和断电都会导致数据丢失。所以就需要用到数据的持久化,redis有两种持久化的方式:AOF和RDB,AOF是将所有执行的命令记录在appendonly.aof文件中,可能 阅读全文
posted @ 2017-11-30 14:38 诗码者 阅读(283) 评论(0) 推荐(0) 编辑
摘要:1、概述 spark有两种调度模式:FIFO、FAIR。FIFO是先进先出,有很强的顺序性,只有前一个处理完成后才会去处理后进来的。FAIR是公平调度,通过配置进行控制优先执行的任务。spark默认使用FIFO模式,如果应用场景里面有很多比较大的查询、也有很多小的查询,此时建议使用FAIR模式可以先 阅读全文
posted @ 2017-11-28 15:48 诗码者 阅读(2078) 评论(0) 推荐(0) 编辑
摘要:1、概述 Presto是一个分布式SQL查询引擎,用于查询分布在一个或多个不同数据源中的大数据集。presto可以通过使用分布式查询,可以快速高效的完成海量数据的查询。它是完全基于内存的,所以速度非常快。presto不仅可以查询HDFS,还可以查询RDMBS数据库。 具体的介绍可以参考官方:http 阅读全文
posted @ 2017-11-24 11:35 诗码者 阅读(6231) 评论(0) 推荐(0) 编辑
摘要:1、概述 tmpfs是ramfs的衍生品,ramfs是基于RAM的文件系统,不能使用swap空间;tmpfs可以动态释放空间、可以使用swap空间。ramfs不能控制使用内存的大小容易使内存爆掉;而tmpfs可以在mount的时候指定size来控制使用内存的大小,不会导致系统崩溃。tmapfs是存储 阅读全文
posted @ 2017-11-23 11:32 诗码者 阅读(3252) 评论(0) 推荐(0) 编辑
摘要:一、概述 1、Rsync+Sersync 是什么? 1)Sersync使用c++编写基于inotify开发的触发机制; 2)Sersync可以监控所监听的目录发生的变化(包括新建、修改、删除),具体到一个文件名或目录名,然后触发rsync同步,只同步发生改变的文件或目录。如果只是目录下的文件发生变化 阅读全文
posted @ 2017-11-21 18:13 诗码者 阅读(1038) 评论(0) 推荐(0) 编辑
摘要:Jenkins node创建 1、jenkins搭建参考我的另外一篇文章: http://www.cnblogs.com/cuishuai/p/7544775.html 2、搭建完成后登录,选择Manage Jenkins 接下来进入管理界面,选择Manage Nodes: 选择New Node创建 阅读全文
posted @ 2017-11-15 15:57 诗码者 阅读(4930) 评论(0) 推荐(0) 编辑
摘要:elasticdump备份elasticsearch里面的某个索引数据 1、 安装环境 需要node、npm、yarn # 去官方下载最新版本的nodejs #wget https://nodejs.org/dist/v6.10.2/node-v6.10.2-linux-x64.tar.xz --n 阅读全文
posted @ 2017-11-15 15:26 诗码者 阅读(580) 评论(0) 推荐(0) 编辑
摘要:#!/usr/bin/env python# -- coding:utf-8 -- import osimport sysfrom subprocess import call from pyspark import SparkContext, SparkConffrom pyspark.sql i 阅读全文
posted @ 2017-11-15 14:20 诗码者 阅读(737) 评论(0) 推荐(0) 编辑
摘要:Hdfs数据备份 一、概述 本文的hdfs数据备份是在两个集群之间进行的,如果使用snapshot在同一个集群上做备份,如果datanode损坏或误操作清空了数据,这样的备份就无法完全保证数据安全性。所以选择将hdfs里面的数据备份到另外的地方进行存储,选择hadoop的分布式复制工具distcp。 阅读全文
posted @ 2017-11-14 19:43 诗码者 阅读(5948) 评论(0) 推荐(0) 编辑
摘要:Cgroups控制系统资源的分配(cpu、mem、io) 1、cgroups概述 CGroup是Linux内核提供的可以限制、隔离进程组 (process groups) 所使用的物理资源 (如 cpu memory i/o 等等)。 全称是Control Groups,从2.6.24 内核引入,并 阅读全文
posted @ 2017-11-10 18:09 诗码者 阅读(5980) 评论(0) 推荐(0) 编辑
摘要:1、强制某些已经登录的用户下线 1)查看已经登录的用户详情 # w 23:51:00 up 5:51, 5 users, load average: 0.75, 0.51, 0.29USER TTY FROM LOGIN@ IDLE JCPU PCPU WHATroot pts/0 spark 18 阅读全文
posted @ 2017-11-09 23:54 诗码者 阅读(282) 评论(0) 推荐(0) 编辑
摘要:Nginx配置日志格式记录cookie1、 一般用来做UV统计,或者获取用户token等。 配置方式: 在nginx的配置文件中有个变量:$http_cookie来获取cookie的信息。配置方式很简单,只需要在nginx配置文件的http段,新添加一个log_format就可以了:http{log 阅读全文
posted @ 2017-11-09 23:40 诗码者 阅读(10967) 评论(3) 推荐(0) 编辑
摘要:kafka集群依赖于zookeeper,所以需要先搭建zookeeper集群,kafka默认自带了内建的zookeeper,建议使用自己外搭建的zookeeper,这样比较灵活并且解耦服务,同时也可以让其他需要zookeeper的服务使用。注意kafka-2.11-0.11版本与zookeeper- 阅读全文
posted @ 2017-11-07 18:51 诗码者 阅读(916) 评论(0) 推荐(0) 编辑
摘要:一、概述 NFS工作流程 1、由程序在NFS客户端发起存取文件的请求,客户端本地的RPC(rpcbind)服务会通过网络向NFS服务端的RPC的111端口发出文件存取功能的请求。 2、NFS服务端的RPC找到对应已注册的NFS端口,通知客户端RPC服务。 3、客户端获取正确的端口,并与NFS dae 阅读全文
posted @ 2017-11-07 11:20 诗码者 阅读(1743) 评论(0) 推荐(0) 编辑
摘要:1、首先添加hdfs的节点,将安装包上传到服务器,设置好环境变量。配置文件按之前spark集群搭建的那里进行修改。 设置完成后,要对新节点新型格式化: # hdfs dfs namenode -format 生成公钥、私钥,配置免密登录: ssh-keygen -t rsa 一直回车就好了,会在用户 阅读全文
posted @ 2017-11-06 20:34 诗码者 阅读(797) 评论(0) 推荐(0) 编辑
摘要:一、spark启动有standalong、yarn、cluster,具体的他们之间的区别这里不在赘述,请参考官网。本文采用的是standalong模式进行搭建及将接使用。 1、首先去官网下载需要的spark版本: http://spark.apache.org/downloads.html 本例使用 阅读全文
posted @ 2017-11-06 20:01 诗码者 阅读(340) 评论(0) 推荐(0) 编辑
摘要:Kafka消息重新发送 1、 使用kafka消息队列做消息的发布、订阅,如果consumer端消费出问题,导致数据并没有消费,此时不需要担心,数据并不会立刻丢失,kafka会把数据在服务器的磁盘上默认存储7天,或者自己指定有两种方式:1)指定时间,log.retention.hours=168;2) 阅读全文
posted @ 2017-11-05 17:52 诗码者 阅读(5983) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示