上一页 1 2 3 4 5 6 7 ··· 29 下一页
摘要: 问题 执行 spark-submit --master local模式时产生warn并达重试数限制失败,导致spark local不能启动: ... WARN Utils: Service 'sparkDriver' could not bind on port 0. Attempting port 阅读全文
posted @ 2020-04-29 11:55 heaventouch 阅读(789) 评论(0) 推荐(0) 编辑
摘要: python2/python3 升级对比 0、环境说明 linux 3.2.54 pyhton2.7 升级到 pyhton3.6 1、特性比较 catch语法:catch xxx, xx => catch xxx as xx print语法:print xxx => print(xxx) urlli 阅读全文
posted @ 2020-04-24 13:48 heaventouch 阅读(228) 评论(0) 推荐(0) 编辑
摘要: 1、安装python、spark、java 环境版本: debian7 python3.6 java1.8 spark-2.4.0-bin-hadoop2.6 如果有网络可尝试用apt-get与pip下载安装,离线环境可下载使用安装包 可以指定安装pyspark版本 pip3.6 install p 阅读全文
posted @ 2020-04-23 09:40 heaventouch 阅读(467) 评论(0) 推荐(0) 编辑
摘要: YARN 调度器 1、FIFO(先进先出调度器) 单队列,任务独占所有资源,先进先出; 优点:简单不需配置; 缺点:大集群中大小任务都会阻塞; 2、Capacity(容量调度器) 多队列(单队列FIFO),支持配额,弹性队列,延迟调度(等待别的队列容器释放而非抢占) 优点:相比FIFO更适用于集群 阅读全文
posted @ 2020-04-16 12:10 heaventouch 阅读(925) 评论(0) 推荐(0) 编辑
摘要: 背景 强kill卡顿MySQL实例 重启错误 InnoDB: Error: page xxx log sequence number xx xxx InnoDB: is in the future! Current system log sequence number xx xxx. 问题 MySQ 阅读全文
posted @ 2020-04-09 14:59 heaventouch 阅读(4733) 评论(0) 推荐(0) 编辑
摘要: 背景 分布式系统多台服务器同时访问MySQL,但由于密码错误等原因导致MySQL服务器产生WAIT_TIME连接,其abort_connected指标程线性增长; 问题 MySQL服务器产生异常 WAIT_TIME连接,数量大可能导致MySQL服务异常或耗尽MySQL连接数; abort_conne 阅读全文
posted @ 2020-04-08 19:20 heaventouch 阅读(268) 评论(0) 推荐(0) 编辑
摘要: NTP工作原理 1、NTP(Network Time Protocol, 网络时间协议)是由RFC 1305定义的时间同步协议,基于UDP协议进行传输,端口号是 123;2、同步时钟过程需要记录四个时间点:离开被同步设备时间T1、达到同步设备时间T2、离开同步是被时间T3、回到被同步设备时间T4,由 阅读全文
posted @ 2020-04-06 11:31 heaventouch 阅读(2050) 评论(0) 推荐(0) 编辑
摘要: 问题: kudu 进程运行一段时候后突然宕掉,查看日志出现clock error:Sep 17, 8:32:31.135 PM FATAL tablet_server_main.cc:38 Check failed: _s.ok() Bad status: Service unavailable: 阅读全文
posted @ 2020-04-03 14:00 heaventouch 阅读(1661) 评论(0) 推荐(0) 编辑
摘要: 问题: presto 查询hive TextInputFormat 格式表错误: 解决: 复制 hadoop share/hadoop 下的相关jar包(lzo)到 presto plugins/hive-hadoop2 (配置文件指定)下; 机器安装lzop; 重启presto 参考: https 阅读全文
posted @ 2020-04-03 13:51 heaventouch 阅读(361) 评论(0) 推荐(0) 编辑
摘要: 监控信息 (作为存储引擎,主要关注I/O,和使用内存) 从tmaster、tserver两个metrics接口获取: IP:8051/metrics?include_schema=1&metrics=serverIP:8050/metrics?include_schema=1&metrics=ser 阅读全文
posted @ 2020-01-09 16:53 heaventouch 阅读(1500) 评论(0) 推荐(0) 编辑
摘要: ZooKeeper原理 1、简介 Zookeeper 作为一个分布式的服务框架,主要用来解决分布式集群中应用系统的一致性问题,它能提供基于类似于文件系统的目录节点树方式的数据存储,但是 Zookeeper 并不是用来专门存储数据的,它的作用主要是用来维护和监控你存储的数据的状态变化。通过监控这些数据 阅读全文
posted @ 2020-01-07 11:32 heaventouch 阅读(466) 评论(0) 推荐(0) 编辑
摘要: 0、简介 Presto 是 Facebook 推出的一个基于Java开发的大数据分布式 SQL 查询引擎,可对从数 G 到数 P 的大数据进行交互式的查询,查询的速度达到商业数据仓库的级别,据称该引擎的性能是 Hive 的 10 倍以上。Presto 可以查询包括 Hive、Cassandra 甚至 阅读全文
posted @ 2020-01-06 14:28 heaventouch 阅读(1066) 评论(0) 推荐(0) 编辑
摘要: Presto 调优 0、presto 原理架构 https://www.cnblogs.com/tgzhu/p/6033373.html 1、Presto 存在的问题 Coordinator单点问题(常见方案:ip漂移、nginx代理动态获取等) 大查询容易OOM(0.186+版本支持dump到磁盘 阅读全文
posted @ 2020-01-03 11:09 heaventouch 阅读(2322) 评论(0) 推荐(0) 编辑
摘要: kudu 架构原理 1、kudu介绍 kudu 定位是 「Fast Analytics on Fast Data」,是一个既支持随机读写、又支持 OLAP 分析的大数据存储引擎。 原数据存储于HDFS或HBase都有优缺点: 直接存放于HDFS中,适合离线分析,却不利于记录级别的随机读写。 直接将数 阅读全文
posted @ 2020-01-02 11:58 heaventouch 阅读(2132) 评论(0) 推荐(0) 编辑
摘要: MySQL 监控 主要使用几个查询: Show global status; Show engine innodb status; 1、Show global status; Aborted_clients:由于客户端没有正确关闭连接导致客户端终止而中断的连接数。(休眠超时,退出未正确关闭,传数中断 阅读全文
posted @ 2019-12-30 11:48 heaventouch 阅读(185) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 29 下一页