李志涛

导航

2023年5月30日 #

dp runtime V1概要设计

摘要: 背景介绍 DP数据同步产品,在客户环境长期运行过程中,发现runtime主要存在以下2类问题: 当前架构下,worker集群管理依赖kafka,同时kafka也会承担数据缓存职责,这二项工作存在相互影响导致worker集群不稳定 worker节点工作负载不均衡 为了解决上述的问题,需要重构现有的架构 阅读全文

posted @ 2023-05-30 19:25 李志涛 阅读(60) 评论(0) 推荐(0) 编辑

dp-runtime去Kafka依赖方案

摘要: 背景 现有原生kafka connect runtime,在客户环境运行遇到诸多问题,问题列表如下: 强依赖Kafka集群做任务分配、connector配置信息、connector状态管理、source进度维护等等 当遇到数据量大、并行数多,topic数量较多时,可能引发kakfa集群的不稳定包括( 阅读全文

posted @ 2023-05-30 19:12 李志涛 阅读(81) 评论(0) 推荐(0) 编辑

去kafka依赖runtime版本梳理

摘要: 背景 xxx数据同步产品,在客户环境长期运行过程中,发现runtime主要存在以下问题• 当前架构下,worker集群管理依赖kafka,kafka同时承担任务分配协调和数据缓冲二项职责,当Kafka作为数据缓存不稳定,这二项工作相互干扰导致worker集群不稳定 解决方案 • 为了解决上述的问题, 阅读全文

posted @ 2023-05-30 18:29 李志涛 阅读(40) 评论(0) 推荐(0) 编辑

2022年12月29日 #

Kafka集群升级实施方案

摘要: 一、背景 我们组内维护的kafka集群承担着公司绝大部分实时数据的收集传输任务。但是,现阶段存在如下问题,已经对集群的稳定性、用户的使用以及管理员的运维造成了很大影响: 1. 当前集群版本较低,且触发低版本bug的概率较高,严重影响了集群的稳定性,例如最近violet集群就因为触发bug导致集群不可 阅读全文

posted @ 2022-12-29 04:01 李志涛 阅读(1572) 评论(0) 推荐(0) 编辑

2020年10月19日 #

caseStudy-2018xxxx-yarn故障&解决办法

摘要: 问题描述 purple集群的yarn 集群对新提交作业不分配资源事故起止时间:2018年xxx月02日 13时56分~2018年xxx月02日 xxx时故障处理人:xxx参与人员:xxx 处理过程 处理步骤和时间跨度13:56 收到邮件报警,但是没有及时发现16:30 用户方反馈作业提交缓慢16:5 阅读全文

posted @ 2020-10-19 10:20 李志涛 阅读(4257) 评论(0) 推荐(0) 编辑

hadoop平台roadmap

摘要: 阅读全文

posted @ 2020-10-19 10:04 李志涛 阅读(103) 评论(0) 推荐(0) 编辑

2019年H1 Hadoop工作规划

摘要: 阅读全文

posted @ 2020-10-19 10:03 李志涛 阅读(106) 评论(0) 推荐(0) 编辑

2020年8月11日 #

技术项目模版

摘要: 项目名称 xxx项目(技术项目-Demo) 项目背景 说明发起该项目的背景情况 预期收益 给出可能产生的实际收益和预期结果 实现方法 简单介绍项目实现方案 项目文档 列举项目过程中依赖或产生的相关文档 相关负责人 角色 姓名 职责 备注 研发负责人 负责技术研发及相关进度控制和核心质量保障等工作 兼 阅读全文

posted @ 2020-08-11 23:27 李志涛 阅读(116) 评论(0) 推荐(0) 编辑

es基础搜索服务方案

摘要: 一、背景 公司业务搜索和统计需求非常多,由于查询SQL关联多且复杂,SQL语句把大量业务逻辑和大量计算堆砌到MySQL服务器上,经常导致线上MySQL负载高,随后响应和吞吐量下降,严重影响线上MySQL持续稳定服务,所以各个团队逐步或已经把繁重的查询和统计SQL工作迁移到es上,es架构比较合适查询 阅读全文

posted @ 2020-08-11 23:26 李志涛 阅读(448) 评论(0) 推荐(0) 编辑

es数据模型及服务化思考

摘要: 一、es数据模型 online_class索引结构 es结构 依赖库表 唯一字段标识 备注 onclass表 { "id":52845960, // online_class__id "bookType":"", // 订课 "bookDateTime":"", // 订课(约课)时间 "class 阅读全文

posted @ 2020-08-11 23:22 李志涛 阅读(373) 评论(0) 推荐(0) 编辑

followup监控需求

摘要: 背景 当前followup监控不完善,查询服务与数据同步服务分离为独立项目,当前监控信息如下: 数据同步服务 监控数据实时性,数据延时计算公式为当前系统时间戳减去订阅Canal的binlog数据时间戳的差值大于1分钟为判定为延时,然后发送报警给相关人。此监控存在问题是假设MySQL主从和Canal通 阅读全文

posted @ 2020-08-11 23:20 李志涛 阅读(131) 评论(0) 推荐(0) 编辑

运维申请机器攻略

摘要: 一、为什么要写这篇文章 最近由于工作需要总共申请了16台云主机,分别用于安装Kafka和elasticsearch集群,因为经验不足过程较为曲折,时间花费比较长。体会如下,因为公司业务高速发展,运维开发RD人力不足,很多基础设施未跟上。特别是运维自动化工具还没有上线,每步操作都是人肉,所以申请机器周 阅读全文

posted @ 2020-08-11 23:18 李志涛 阅读(320) 评论(0) 推荐(1) 编辑

elasticsearch安装和配置

摘要: elasticsearch安装和配置最简化版, 能保证run起来,后续配置优化,待熟悉自行添加,我了解更多会做更多说明和解释 一、环境准备 1.先申请机器或申请root权限,保证有安装权限 2.jdk版本为1.8及以上,1.7报错。下载jdk-1.8 http://www.oracle.com/te 阅读全文

posted @ 2020-08-11 22:48 李志涛 阅读(389) 评论(0) 推荐(0) 编辑

业务平台基础es服务化方案

摘要: 一、背景 由于自己还在逐步了解es用法中,当前无法快速提供独立es服务。而且通过与郝xxx、宋zz、孟xxx沟通,当前线上cc和clt通过聚合家长端和DB及es等数据能解决复杂查询问题,因为followup刚上线还不完善,先深入业务,重点解决业务关注的痛点、紧急问题、暂无人无资源去解决的问题。通过业 阅读全文

posted @ 2020-08-11 22:46 李志涛 阅读(521) 评论(0) 推荐(0) 编辑

中间件集群梳理与搭建

摘要: 一、背景 当前管理端部分方向因业务的发展,不断需要ES、MQ等基础中间件服务的支持,因公司架构组近期主要精力在DB中间件和新MQ平台等重点项目里,短期无法提供ES和ActiveMQ的新增业务支持,因此需要各端业务方自己搭建和维护,但对于业务方向的研发人员来说,一方面业务需求压力比较大、精力不足,另一 阅读全文

posted @ 2020-08-11 22:40 李志涛 阅读(510) 评论(0) 推荐(0) 编辑

管理端ES模型梳理

摘要: es工作初步规划 1.构建统一数据模型 2.搭建es测试环境 3.源数据通过canal订阅,merge到新的online和student 4.建立独立基础搜索服务项目 5.定义API 6.基础搜索服务进行开发,提供基础搜索服务 7.测试环境,联调联测,QA进入 8.提交运维申请,上线部署 阅读全文

posted @ 2020-08-11 22:38 李志涛 阅读(178) 评论(0) 推荐(0) 编辑

业界ES演进

摘要: 一、唯品会 1.公开资料 archsummit全球架构师大会演讲:Pallas--唯品会统一检索平台的演进和探索:https://sz2018.archsummit.com/presentation/488 2.私下交流学习 唯品主要是一个大es集群,大约有200多个节点 云主机配置为16core 阅读全文

posted @ 2020-08-11 22:32 李志涛 阅读(149) 评论(0) 推荐(0) 编辑

es从aws迁移阿里云问题总结

摘要: 1.背景 当前公司绝大部分服务都部署在aws上,少量新服务部署在阿里云上,由于单云平台可用性风险。公司希望通过部署双云平台实现容灾,同时在aws和阿里云部署相同服务,一个云平台有问题部署到另外一个平台 2.迁移阿里云问题 2.1 阿里云 问题:es服务可以启动,但是连接集群内其他节点报错,es集群不 阅读全文

posted @ 2020-08-11 22:29 李志涛 阅读(180) 评论(0) 推荐(0) 编辑

MySQL & Canal流程&架构梳理

摘要: 1.现状 线上MySQL部署情况复杂,不利于后续架构调整和服务化 无一人对线上MySQL主从关系以及canal对应关系情况足够了解 新人多,学习成本高,存在误操作风险 2.目标 梳理线上MySQL主从关系,理清内在逻辑关系 梳理MySQL中DB与canal关系,便于架构改造升级 有利于新人学习,尽快 阅读全文

posted @ 2020-08-11 22:25 李志涛 阅读(400) 评论(0) 推荐(0) 编辑

2020年4月24日 #

TDDL当前进展及技术规划

摘要: 一、选型背景 公司营收业绩高速增长,业务快速向前奔跑,对基础技术上线既要超、快、猛,又要保证服务质量,所以前期选型稳妥方案为MySQL router,但他的核心功能上仅支持读写分离、读写库高可用、动态增删DB节点,而读写性能却无法应对每月大幅增长的数据。对业务拆分同时进行分库分表势在必行。基于以上场 阅读全文

posted @ 2020-04-24 20:30 李志涛 阅读(414) 评论(0) 推荐(0) 编辑