12 2022 档案

摘要:什么是流水线 声明式流水线 Jenkinsfile 的使用 什么是流水线 jenkins 有 2 种流水线分为声明式流水线与脚本化流水线,脚本化流水线是 jenkins 旧版本使用的流水线脚本,新版本 Jenkins 推荐使用声明式流水线。文档只介绍声明流水线。 声明式流水线 在声明式流水线语法中, 阅读全文
posted @ 2022-12-09 14:20 我爱编程到完 阅读(96) 评论(0) 推荐(0) 编辑
摘要:1. Jenkins的介绍 Jenkins是一个开源的、提供友好操作界面的持续集成(CI)工具,起源于Hudson(Hudson是商用的),主要用于持续、自动的构建/测试软件项目、监控外部任务的运行。Jenkins用Java语言编写,可在Tomcat等流行的servlet容器中运行,也可独立运行,关 阅读全文
posted @ 2022-12-09 11:02 我爱编程到完 阅读(126) 评论(0) 推荐(0) 编辑
摘要:前言 软考复习的方式可以分为两种:报班和自学。当然也有加QQ要求共同分摊网课费用的,当然被我义正言辞地无情拒绝。原因很简单:没钱。于是前前后后自学了七天,最终考过了系统架构师。如果你想考系统架构师,或许这个学习模式不适合你,但至少会让你少走很多弯路。 首先晒一下成绩,开心的一,虽然考的不是很好!!每 阅读全文
posted @ 2022-12-07 17:57 我爱编程到完 阅读(981) 评论(0) 推荐(0) 编辑
摘要:MDB 死锁的n种姿势 为了充分利用多核CPU的性能,高性能的服务端程序,都会采用多进程/多线程并发编程,并发编程最绕不开的话题就是锁了。作为计费产品的核心高性能组件——MDB,锁也是老生常谈的话题。 在展开谈MDB的锁之前,需要先介绍下MDB的版本演进和使用方式。MDB 全称Memory Data 阅读全文
posted @ 2022-12-07 17:56 我爱编程到完 阅读(280) 评论(0) 推荐(0) 编辑
摘要:作为一名曾在阿里、科蒂做过中台的人,笔者将从业务和组织架构层面聊聊在甲乙方都转了一圈后的感受。 01 我在京东的搜索与大数据团队和阿里集团中台都待过,后来换到品牌科蒂(全球第三的美妆公司)做数字化转型,也就是在跨国公司做中台。 所以我就从业务和组织架构层面跟大家聊聊在甲乙方都转了一圈后的感受。 20 阅读全文
posted @ 2022-12-07 17:55 我爱编程到完 阅读(103) 评论(0) 推荐(0) 编辑
摘要:随着5G时代的到来,在“大带宽、超连接、低时延”网络特征下,移动信息技术的快速发展正在推动互联网从消费级向产业升级演进,从而引发了各行业在“4G改变生活,5G改变社会”愿景下通过应用创新重塑行业的无限想象。面对百花齐放,层出不穷的各类应用场景,也将驱动运营商打破原有业务边界,拓展新业务领域,同时,5 阅读全文
posted @ 2022-12-07 17:55 我爱编程到完 阅读(340) 评论(0) 推荐(0) 编辑
摘要:从最初的经分、BI、数据仓库到大数据,感觉变化好快,但似乎也没什么变化。 实现的技术手段一直在进步,从最初的报表、到多维分析、到数据挖掘、到机器学习、到分布式平台、到人工智能…… 再加上各种可视化、人脸识别、语音识别等技术的发展,令人眼花缭乱,目不暇接。 要解决的问题却还是那些:数据量多、数据不规范 阅读全文
posted @ 2022-12-07 17:54 我爱编程到完 阅读(18) 评论(0) 推荐(0) 编辑
摘要:1小文件优化的驱动力 1.1NN 内存和HDFS文件的数量关系计算. 一般来说, NameNode管理文件File、目录Directory、块Block对象, 每一个对象的大小约在150 B.大小. 假设有一个192MB的文件, 它会切分称128M+64M, 就会有2个block 文件+ 1个文件对 阅读全文
posted @ 2022-12-07 17:53 我爱编程到完 阅读(104) 评论(0) 推荐(0) 编辑
摘要:MongoDB是全球领先的NoSQL数据库,是一个可扩展、开源、表结构自由,用C++语言编写且面向文档的高性能分布式数据库。 MongoDB在持续演进中,不断优化自己的特色功能,保证了数据库的稳定性,同时吸收其它数据库的优点并完善其功能。MongoDB成为了最像关系数据库的NoSQL数据库,在NoS 阅读全文
posted @ 2022-12-07 17:52 我爱编程到完 阅读(91) 评论(0) 推荐(0) 编辑
摘要:前言 上一篇的枯燥无味,就用这一篇来填补一下。写到插件篇了,终于能写点有意思的东西了,接下来就Scrapy基本概念和插件篇来穿插着写一写。 在我们以往开发的爬虫中,不论是Java的Jsoup,还是Python的requests,启动方式和普通的应用程序没什么两样,都是通过命令来本机运行。 但Scra 阅读全文
posted @ 2022-12-07 16:02 我爱编程到完 阅读(134) 评论(0) 推荐(0) 编辑
摘要:前言 写一写Spider中间件吧,都凌晨了,一点都不想写,主要是也没啥用…哦不,是平时用得少。因为工作上的事情,已经拖更好久了,这次就趁着半夜写一篇。 Scrapy-deltafetch插件是在Spider中间件实现的去重逻辑,开发过程中个人用的还是比较少一些的。 作用 依旧是那张熟悉的架构图,不出 阅读全文
posted @ 2022-12-07 16:02 我爱编程到完 阅读(47) 评论(0) 推荐(0) 编辑
摘要:前言 “又回到最初的起点,呆呆地站在镜子前”。 本来这篇是打算写Spider中间件的,但是因为这一块涉及到Item,所以这篇文章先将Item讲完,顺便再讲讲Pipeline,然后再讲Spider中间件。 Item和Pipeline 依旧是先上架构图。 从架构图中可以看出,当下载器从网站获取了网页响应 阅读全文
posted @ 2022-12-07 16:01 我爱编程到完 阅读(204) 评论(0) 推荐(0) 编辑
摘要:前言 MiddleWare,顾名思义,中间件。主要处理请求(例如添加代理IP、添加请求头等)和处理响应。 本篇文章主要讲述下载器中间件的概念,以及如何使用中间件和自定义中间件。 MiddleWare分类 依旧是那张熟悉的架构图。 从图中看,中间件主要分为两类: Downloader MiddleWa 阅读全文
posted @ 2022-12-07 16:00 我爱编程到完 阅读(143) 评论(0) 推荐(0) 编辑
摘要:前言 代码未动,配置先行。本篇文章主要讲述一下Scrapy中的配置文件settings.py的参数含义,以及如何去获取一个爬虫程序的运行性能指标。 这篇文章无聊的一匹,没有代码,都是配置化的东西,但是呢不学还不行,属于Scrapy的枢纽,很关键。所以还请各位看官老爷耐得住这一章的寂寞。 settin 阅读全文
posted @ 2022-12-07 15:59 我爱编程到完 阅读(107) 评论(0) 推荐(0) 编辑
摘要:第三 阅读全文
posted @ 2022-12-07 15:59 我爱编程到完 阅读(26) 评论(0) 推荐(0) 编辑
摘要:1 阅读全文
posted @ 2022-12-07 15:57 我爱编程到完 阅读(27) 评论(1) 推荐(0) 编辑
摘要:前言 Scrapy is coming!! 在写了七篇爬虫基础文章之后,终于写到心心念念的Scrapy了。Scrapy开启了爬虫2.0的时代,让爬虫以一种崭新的形式呈现在开发者面前。 在18年实习的时候开始接触Scrapy,花了一个月的时间,理论结合实践学习了Scrapy。本篇文章不写代码操作,只讲 阅读全文
posted @ 2022-12-07 15:53 我爱编程到完 阅读(83) 评论(1) 推荐(0) 编辑
摘要:前言 一个小姐姐拿着一个switch的选择题来问我。 之所以这么笃定地回答这个问题,并不是我知道其中原理,而是之前在一个群里,有人问了同类型的问题,我瞥了一眼记住了答案,所以才依葫芦画瓢。 小姐姐接着问我为什么,我说少个break,但凡再问一句:为什么少个break结果就不一样,我就回答不出来了。所 阅读全文
posted @ 2022-12-07 15:52 我爱编程到完 阅读(42) 评论(1) 推荐(0) 编辑
摘要:前言 前两天刚买了个腾讯服务器(CVM),这次登陆上去的时候特别卡,通过top发现负载特别高,因为是刚搭建的环境,也没有运行什么应用程序,所以我觉得这有点不正常。 我就想着把docker、mysql的后台服务停了,然后再观察一下负载能不能降下来,结果我发现常用的命令都无法使用了。 后来发现是dock 阅读全文
posted @ 2022-12-07 15:48 我爱编程到完 阅读(21) 评论(1) 推荐(0) 编辑
摘要:Flink端到端的一致性 - source端(kafka consumer) 偏移量保存下来, 如果后续任务出现了故障,恢复的时候可以由连接器重置偏移量,重新 消费数据,保证一致性。 - 内部 (checkpoint 机制) • 基于 Chandy-Lamport 算法的分布式快照算法• 将检查点的 阅读全文
posted @ 2022-12-07 15:35 我爱编程到完 阅读(12) 评论(1) 推荐(0) 编辑
摘要:步深入大数据设计的内核—数据仓库设计之多维模型设计和标签设计。 多维模型设计4步:确定业务场景、声明粒度、维度设计和事实表设计 大数据分析都是场景驱动,必须先明确场景。 粒度也就是场景中重点关注的实体,一般是原始主键或者维度联合主键,粒度设计合理,分析更加方便,架构调整越小。 (从这个意义上来说,O 阅读全文
posted @ 2022-12-07 15:30 我爱编程到完 阅读(106) 评论(1) 推荐(0) 编辑
摘要:出乎意料地过了一个有生以来最安静、活动范围最小的春节,每天看新闻,对奋战一线或是间接支援的人们都钦佩无比,自己能做的就是不给社会添乱,但是却也在思考,在这种非常时期,我们所接触的行业有什么样的贡献。 首先,看到了大数据及数据分析的应用。疫情初期,不管是之前支付宝辟谣非官方提供的华南海鲜市场支付宝使用 阅读全文
posted @ 2022-12-07 15:29 我爱编程到完 阅读(26) 评论(0) 推荐(0) 编辑
摘要:应用场景:集群数据在节点上分布不均匀,会影响节点的健康和集群的效率, 数据不均衡一般是多种原因造成的,一般来说,可能是大批量的write & deltete操作.我们可以使用Disk balancer工具来使得集群的数据节点磁盘存储达到均衡,大约方差是10%,就表示成功了. Disk balance 阅读全文
posted @ 2022-12-07 15:29 我爱编程到完 阅读(221) 评论(0) 推荐(0) 编辑
摘要:开启新的专题【数据库中间件】第7节,一起开启数据库中间件的学习,上节回顾:本机windows系统启动mycat,访问3台虚拟机,演示mycat的11种分片策略演示,防止入坑。本节就演示上节提到的主键6种生成方式。 (一)主键值生成方式 ① 介绍 在实现分库分表的情况下,原来是一张表就分到多个库上面和 阅读全文
posted @ 2022-12-07 15:28 我爱编程到完 阅读(78) 评论(0) 推荐(0) 编辑
摘要:大致看了下大数据用到的技术栈,两个字太多,要快速入门,可谓困难重重,经过一段时间的摸索,先从ETL入手,比较符合传统开发人员转型大数据攻城狮。现在软件行业这么内卷,筒子们转型大数据开发吧。此次介绍的ETL工具很轻量级,入门容易,大厂背书,皮实耐操。 简介 Datax-web基于datax,增加了we 阅读全文
posted @ 2022-12-07 15:27 我爱编程到完 阅读(477) 评论(0) 推荐(0) 编辑
摘要:1.用DataGrip连接MySQL数据库(我这里演示的是DataGrip连接的虚拟机centos7.9中的MySQL数据库) # 做一个手机商城数据表 create table shop( id int primary key auto_increment, # 手机编号 name varchar 阅读全文
posted @ 2022-12-07 15:26 我爱编程到完 阅读(485) 评论(0) 推荐(0) 编辑
摘要:DELIMITER $$ CREATE FUNCTION `to_date`(in_str varchar(50), in_format varchar(50)) RETURNS datetime DETERMINISTIC BEGIN DECLARE my_format varchar(50); 阅读全文
posted @ 2022-12-07 15:24 我爱编程到完 阅读(92) 评论(0) 推荐(0) 编辑
摘要:今天项目的两个地图数据有问题,经检查是由于数据重复造成的,需要去重,解决问题后把使用的相关函数汇总一下 group by是分组函数,partition by是分区函数(像sum()等是聚合函数),注意区分。 用法: OVER(PARTITION BY… ORDER BY…) 比如例子中的,我创建了八 阅读全文
posted @ 2022-12-07 15:24 我爱编程到完 阅读(102) 评论(0) 推荐(0) 编辑
摘要:一、使用场景描述: 用户有一台控制器的三个组件需要进行端口监控,控制器主机因为跟办公网络未在同一个网络区域,因此不能使用ssh进行直连进行监控。客户现场环境如下(见下图): 【1】办公区域网络与用户区的一台跳板机网络互通 【2】用户区跳板机能ssh登录DMZ区一台测试主机 【3】DMZ测试主机能ss 阅读全文
posted @ 2022-12-07 15:22 我爱编程到完 阅读(153) 评论(0) 推荐(0) 编辑
摘要:前言 如果mysql数据库系统自带的mysql数据库被误删了,应该如何恢复?其实操作方法比较简答,今天用实验的方式分享一下 1、实验环境信息 实验环境信息: mysql版本 5.7.27 实验系统 centos 7.9.2009 mysql basedir /data/mysql mysql dat 阅读全文
posted @ 2022-12-07 15:21 我爱编程到完 阅读(873) 评论(0) 推荐(0) 编辑
摘要:在从离线到实时化发展的过程中,大数据领域出现了很多优秀的系统以应对各种不同的分析和查询场景。 1.比如我们可以将实时的数据归档到像Hive这样的离线数仓里进行数据的离线处理后再将聚合后的小规模数据导出到mysql进行后续的报表查询或者数据访问; 2.也有将数据经过flink流计算引擎进行前置的实时处 阅读全文
posted @ 2022-12-07 15:14 我爱编程到完 阅读(77) 评论(0) 推荐(0) 编辑
摘要:Flink端到端的一致性 - source端(kafka consumer) 偏移量保存下来, 如果后续任务出现了故障,恢复的时候可以由连接器重置偏移量,重新 消费数据,保证一致性。 - 内部 (checkpoint 机制) • 基于 Chandy-Lamport 算法的分布式快照算法• 将检查点的 阅读全文
posted @ 2022-12-07 15:12 我爱编程到完 阅读(113) 评论(0) 推荐(0) 编辑
摘要:作者:关涛、李睿博、孙莉莉、张良模、贾扬清 (from 阿里云智能计算平台) 黄波、金玉梅、于茜、刘子正 (from 新浪微博机器学习研发部) 近几年,随着数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论始终不断。数据仓库和数据湖的区别到底是什么?本文作者来自阿里巴巴计算平台部门,在深度参与 阅读全文
posted @ 2022-12-07 15:09 我爱编程到完 阅读(208) 评论(0) 推荐(0) 编辑
摘要:- k8s界面使用kuboard - 部署使用1主1备1哨兵 - 使用思路为master节点部署后,slave节点使用master的serviceip与master节点进行互通,哨兵进程与master、slave使用service ip互通 - 参考链接 [bitnami/redis-sentine 阅读全文
posted @ 2022-12-07 15:08 我爱编程到完 阅读(364) 评论(0) 推荐(0) 编辑
摘要:前言 又是一年乍暖还寒,春天的风迎面而来,凉意中夹杂着些许温暖。哦,你知道,是春天来了。就像那年的实习期,在挥手告别的毕业季,定格在了那年的七月。 人会怀念,怀念青涩时期的自己,懵懵懂懂却又充满着努力。人会想念,想念每天朝夕相处的人,有一天会在转角挥手告别。人会改变,改变了不善言辞的自己,终游荡于人 阅读全文
posted @ 2022-12-07 15:06 我爱编程到完 阅读(125) 评论(1) 推荐(0) 编辑
摘要:DolphinScheduler+DataX或Chunjun 解决离线大数据任务与实时大数据任务的快速开发,部署,调度。 当然依赖于底层spark,flink,hive,hdfs等大数据基础设施,在CPU,内存等资源充足的情况下,不需要大数据运维和调优。数据量起来之后会有各种问题,要求就更深入了。 阅读全文
posted @ 2022-12-07 15:01 我爱编程到完 阅读(36) 评论(0) 推荐(0) 编辑
摘要:原来使用kafka消费者直接进行mysql数据同步,现在发现当时只考虑了数据的同步,对于后续数据的存储和使用没有考虑全面。面对大量流式数据,面向的是应用,数据同步之后,数据如何存储,如何计算是更大的问题,不只是数据本身。但是当时同步数据确实遇到了事务问题,通过加锁实现了简单的事务。Hudi本身支持A 阅读全文
posted @ 2022-12-07 14:58 我爱编程到完 阅读(548) 评论(0) 推荐(0) 编辑
摘要:k8s基本概念 CNI网络插件 Flannel k8s常用命令 apply 与 replace 的区别 将文件复制到容器或从容器中复制出来 kubectl命令操作pod 查看容器日志 操作标签(labels) kubectl命令操作deployments kubectl命令操作容器 资源服务 Nam 阅读全文
posted @ 2022-12-07 14:58 我爱编程到完 阅读(39) 评论(0) 推荐(0) 编辑
摘要:一、集群分类 一主多从:一台master 多个多个Node节点 多主多从:多个master多个node节点 二、安装方式 minikube:快速安装搭建单节点k8s工具 kubeadm:快速搭建k8s集群的工具 主要使用的方式 二进制包安装:从官网下载每个组件的二进制包进行安装 三、安装规划 192 阅读全文
posted @ 2022-12-07 14:56 我爱编程到完 阅读(282) 评论(0) 推荐(0) 编辑