2022 年 3月随笔档案 - Linux运维阿铭

关于在hive任务中number of reducers的探讨

摘要： 1．在默认情况下（set mapreduce.job.reduces=-1）,实际运行计算过程中reducer的数量会由所读取文件的大小来决定。文件默认大小是256M，即每256M对应一个reduce。比如当文件大小为1G时，会启用4个reducer处理数据；当文件大小为400M时，会启用2个阅读全文

posted @ 2022-03-30 14:51 Linux运维阿铭阅读(48) 评论(0) 推荐(0) 编辑

Apache Shiro Realm实战及认证授权源码解读

摘要：之前文章我们讲解了Apache Shiro的一些基础知识，今天我们会进行Shiro Realm实战以及对Shiro认证授权源码进行解读。 1. Shiro安全数据来源之Realm实战从之前章节的讲解我们了解到实际进行权限信息验证的是我们的 Realm，Shiro 从 Realm 获取安全数据，阅读全文

posted @ 2022-03-30 14:47 Linux运维阿铭阅读(117) 评论(0) 推荐(0) 编辑

Spark的job、stage和task的机制论述

摘要： Spark任务调度机制论述在生产环境下，Spark集群的部署方式一般为YARN-Cluster模式。 Driver线程主要是初始化SparkContext对象，准备运行所需的上下文，然后一方面保持与ApplicationMaster的RPC连接，通过ApplicationMaster申请资源，阅读全文

posted @ 2022-03-29 10:30 Linux运维阿铭阅读(696) 评论(0) 推荐(0) 编辑

Apache Impala架构解析及与Hive、SparkSQL的性能比较

摘要：一、Impala介绍 Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性阅读全文

posted @ 2022-03-29 10:25 Linux运维阿铭阅读(357) 评论(0) 推荐(0) 编辑

web前端技术Mongoose详解

摘要：简介之前我们都是通过shell来完成对数据库的各种操作的，在开发中大部分时候我们都需要通过程序来完成对数据库的操作。而Mongoose就是一个让我们可以通过Node来操作MongoDB的模块。 Mongoose是一个对象文档模型（ODM）库，它对Node原生的MongoDB模块进行了进一步的优阅读全文

posted @ 2022-03-29 10:20 Linux运维阿铭阅读(352) 评论(0) 推荐(0) 编辑

MapReduce的Shuffle过程及Hadoop优化（包括：压缩、小文件、集群优化）

摘要：一、Shuffle机制 1）Map方法之后Reduce方法之前这段处理过程叫Shuffle 2）Map方法之后，数据首先进入到分区方法，把数据标记好分区，然后把数据发送到环形缓冲区；环形缓冲区默认大小100m，环形缓冲区达到80%时，进行溢写；溢写前对数据进行排序，排序按照对key的索引阅读全文

posted @ 2022-03-25 15:30 Linux运维阿铭阅读(68) 评论(0) 推荐(0) 编辑

带你详细了解mongodb数据库

摘要：启动MongoDB • 在C盘根目录下创建data文件夹，在data下创建db文件夹 • 打开CMD命令行窗口，输入mongod • 32位系统第一次启动： – mongod --storageEngine=mmapv1 • 出现如下输出指定端口和路径 • 在控制台启动MongoDB – mo 阅读全文

posted @ 2022-03-25 15:28 Linux运维阿铭阅读(219) 评论(0) 推荐(0) 编辑

Spark启动及提交流程内部核心原理剖析

摘要：Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎，并且拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于需要迭代MapReduce的算法。接下来带大家探阅读全文

posted @ 2022-03-23 11:41 Linux运维阿铭阅读(141) 评论(0) 推荐(0) 编辑

Node.js-COMMONJS 规范

摘要：ECMAScript 标准的缺陷没有模块系统标准库较少没有标准接口缺乏管理系统模块化如果程序设计的规模达到了一定程度，则必须对其进行模块化。模块化可以有多种形式，但至少应该提供能够将代码分割为多个源文件的机制。 CommonJS 的模块功能可以帮我们解决该问题。 Commo 阅读全文

posted @ 2022-03-23 11:37 Linux运维阿铭阅读(54) 评论(0) 推荐(0) 编辑

java编程开发多线程锁的8个问题分析

摘要：1. 程序代码 package com.atguigu.thread; import java.util.concurrent.TimeUnit; class Phone { public synchronized void sendSMS() throws Exception { System.o 阅读全文

posted @ 2022-03-23 11:35 Linux运维阿铭阅读(35) 评论(0) 推荐(0) 编辑

大数据使用Airflow实现简单的工作流调度

摘要： Airflow是一个以编程方式编写，安排和监视工作流的平台。使用Airflow将实用工作流任务编写的有向无环图(DAG)。一个流程计划程序在遵循指定的依赖项同时在一组工作线程上执行任务。丰富的用户使查看生产运行的管道问题，监视中的故障以及正在显示的故障时需要对进行解决改变的容易。 1、编写Da 阅读全文

posted @ 2022-03-17 10:09 Linux运维阿铭阅读(420) 评论(0) 推荐(0) 编辑

web前端Node安装步骤

摘要：Node的历史 2009年瑞安·达尔（Ryan Dahl）在GitHub上发布node的最初版本 2010年1月Node的包管理器npm诞生 2010年底 Joyent公司赞助Node的开发，瑞安·达尔加入旗下，全职负责Node 2011年7月 Node在微软的帮助下发布了windows版本 201 阅读全文

posted @ 2022-03-17 10:07 Linux运维阿铭阅读(133) 评论(0) 推荐(0) 编辑

「尚硅谷」java实战项目谷粒商城简介_idea_通用mapper

摘要：一、简介 1、为什么我们要讲电商？因为就互联网平台来说，电商网站有很多典型的特征：访问量大数据量大涉及的技术多有一定的业务复杂性涉及支付考虑一定安全性 2、我们能从这个项目中学到什么？巩固以前知识，学会应用：要新掌握的知识需要掌握的解决方案二、 Intellij idea 1、阅读全文

posted @ 2022-03-17 10:05 Linux运维阿铭阅读(305) 评论(0) 推荐(0) 编辑

推荐算法！基于隐语义模型的协同过滤推荐之商品相似度矩阵

摘要：项目采用ALS作为协同过滤算法，根据MongoDB中的用户评分表计算离线的用户商品推荐列表以及商品相似度矩阵。通过ALS计算商品相似度矩阵，该矩阵用于查询当前商品的相似商品并为实时推荐系统服务。离线计算的ALS 算法，算法最终会为用户、商品分别生成最终的特征矩阵，分别是表示用户特征矩阵的U( 阅读全文

posted @ 2022-03-15 15:29 Linux运维阿铭阅读(285) 评论(0) 推荐(0) 编辑

java 编程技术 FastDFS 安装和配置

摘要： fastdfs结构说明一、FastDFS--tracker安装 1 FastDFS安装环境 FastDFS是C语言开发，建议在linux上运行，本教程使用Centos7.4作为安装环境。安装gcc 依赖环境 yum install gcc-c++ -y 安装libevent 2.1 y 阅读全文

posted @ 2022-03-15 15:15 Linux运维阿铭阅读(177) 评论(0) 推荐(0) 编辑

React 路由

摘要：相关理解 1.1. SPA 的理解 1. 单页 Web 应用（single page web application，SPA）。 2. 整个应用只有一个完整的页面。 3. 点击页面中的链接不会刷新页面，只会做页面的局部更新。 4. 数据都需要通过 ajax 请求获取, 并在前端异步展现。 1.2. 阅读全文

posted @ 2022-03-07 14:33 Linux运维阿铭阅读(24) 评论(0) 推荐(0) 编辑

java 编程技术异步通信

摘要：一、分布式的业务场景 1 、如何高效完成各个分布式系统的协作通过消息队列来达到异步解耦的效果，减少了程序之间的阻塞等待时间，降低了因为服务之间调用的依赖风险。 2、消息的弊端？如何解决？消息队列的问题在于不确定性，不能绝对保证消息的准确到达，所以要引入延迟、周期性的主动轮询，来发现未到达的消息，阅读全文

posted @ 2022-03-07 14:32 Linux运维阿铭阅读(83) 评论(0) 推荐(0) 编辑

Flink 任务调度机制几个重要概念

摘要：调度器是 Flink 作业执行的核心组件，管理作业执行的所有相关过程，包括 JobGraph 到 ExecutionGraph 的转换、作业生命周期管理（作业的发布、取消、停止）、作业的 Task 生命周期管理（Task 的发布、取消、停止）、资源申请与释放、作业和 Task 的 Failover 阅读全文

posted @ 2022-03-07 14:30 Linux运维阿铭阅读(219) 评论(0) 推荐(0) 编辑

Linux运维阿铭

16年IT从业经验，6年多鹅厂运维经验，6年多创业公司经验，熟悉大厂运维体系，有从零搭建运维体系的实战经验。关注我，学习主流运维技能，让你比别人提升更快，涨薪更多！

03 2022 档案

公告

搜索

常用链接

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论