扎心了老铁

2017年7月29日

摘要：在分布式系统设计中，选主是一个常见的场景。选主是一个这样的过程，通过选主，主节点被选择出来控制其他节点或者是分配任务。选主算法要满足的几个特征： 1）各个节点均衡的获得成为主节点的权利，一旦主节点被选出，其他的节点可以感知到谁是主节点，被服从分配。 2）主节点是唯一存在的 3）一旦主节点失效，宕机阅读全文

posted @ 2017-07-29 23:04 扎心了老铁阅读(10501) 评论(0) 推荐(3) 编辑

2017年7月27日

zookeeper curator使用caches实现各种监听

摘要： 1、篇首语 curator是zookeeper的一个高级api开发包。封装了zookeeper众多的recipes，并且实现了一些新的recipes原语，最重要的是基于zookeeper提供的各种机制实现了更健壮的连接和异常处理。本文将其中比较常用的一种recipe，就是cache。 2、各种Ca 阅读全文

posted @ 2017-07-27 17:11 扎心了老铁阅读(7142) 评论(1) 推荐(1) 编辑

2017年7月25日

python apschedule安装使用与源码分析

摘要：我们的项目中用apschedule作为核心定时调度模块。所以对apschedule进行了一些调查和源码级的分析。 1、为什么选择apschedule？听信了一句话，apschedule之于python就像是quartz之于java。实际用起来还是不错的。 2、安装 3、apschedule有四个主阅读全文

posted @ 2017-07-25 15:38 扎心了老铁阅读(6122) 评论(1) 推荐(2) 编辑

2017年7月23日

数据迁移过程中hive sql调优

摘要：本文记录的是，在数据处理过程中，遇到了一个sql执行很慢，对一些大型的hive表还会出现OOM，一步一步通过参数的设置和sql优化，将其调优的过程。先上sql 可以看到这个sql由1个join，一个去重语句，组成，这两种操作都是很耗费资源的。 1、对链接操作，小表放在链接左边。这是一个老生常谈的阅读全文

posted @ 2017-07-23 09:22 扎心了老铁阅读(658) 评论(0) 推荐(1) 编辑

2017年7月22日

使用spark对hive表中的多列数据判重

摘要：本文处理的场景如下，hive表中的数据，对其中的多列进行判重deduplicate。 1、先解决依赖，spark相关的所有包，pom.xml spark-hive是我们进行hive表spark处理的关键。 2、spark-client 3、判重流程 4、运行方式提交任务脚本运行：结果阅读全文

posted @ 2017-07-22 23:57 扎心了老铁阅读(1236) 评论(0) 推荐(1) 编辑

使用hive客户端java api读写hive集群上的信息

摘要：上文介绍了hdfs集群信息的读取方式，本文说hive 1、先解决依赖 2、配置文件这里我们给出一种简单的配置方法，就是直接将hive-site.xml通过添加文件的方式加载到配置例如，hive-site.xml中的配置如下 3、hive client api 说明： 1、hiveConf.add 阅读全文

posted @ 2017-07-22 15:50 扎心了老铁阅读(8888) 评论(0) 推荐(1) 编辑

使用HDFS客户端java api读取hadoop集群上的信息

摘要：本文介绍使用hdfs java api的配置方法。 1、先解决依赖，pom 2、配置文件，存放hdfs集群配置信息，基本都是来源于core-site.xml和hdfs-site.xml，可以根据hdfs集群client端配置文件里的信息进行填写 3、java client api 4、configu 阅读全文

posted @ 2017-07-22 15:41 扎心了老铁阅读(2751) 评论(0) 推荐(2) 编辑

2017年7月19日

使用Fabric一键批量部署上线/线上环境监控

摘要：本文讲述如何使用fabric进行批量部署上线的功能这个功能对于小应用，可以避免开发部署上线的平台，或者使用linux expect开发不优雅的代码。前提条件： 1、运行fabric脚本的机器和其他机器tcp_port=22端口通 2、ssh可以登录，你有账号密码一、先说批量部署上线先上代码，阅读全文

posted @ 2017-07-19 20:37 扎心了老铁阅读(1110) 评论(0) 推荐(1) 编辑

2017年7月17日

springboot使用zookeeper(curator)实现注册发现与负载均衡

摘要：最简单的实现服务高可用的方法就是集群化，也就是分布式部署，但是分布式部署会带来一些问题。比如： 1、各个实例之间的协同(锁) 2、负载均衡 3、热删除这里通过一个简单的实例来说明如何解决注册发现和负载均衡。 1、先解决依赖，这里只给出zk相关的依赖，pom.xml如下 2、ZkClient 这里使阅读全文

posted @ 2017-07-17 20:03 扎心了老铁阅读(8684) 评论(1) 推荐(1) 编辑

2017年7月10日

django使用xlwt导出excel文件

摘要：这里只是mark一下导出的方法，并没有做什么REST处理和异常处理。维护统一的style样式，可以使导出的数据更加美观。阅读全文

posted @ 2017-07-10 10:36 扎心了老铁阅读(3466) 评论(0) 推荐(1) 编辑

公告