2024 年 1月 10 日随笔档案 - 阿飞藏泪

2024年1月10日

摘要： Elasticsearch提供了基于JSON的DSL（Domain Specific Language）来定义查询。常见的查询类型包括：查询所有：查询出所有数据，一般测试用。例如：match_all 全文检索（full text）查询：利用分词器对用户输入内容分词，然后去倒排索引库中匹配。例如：阅读全文

posted @ 2024-01-10 22:51 阿飞藏泪阅读(50) 评论(0) 推荐(0) 编辑

摘要： cd命令在Linux中用于改变当前工作目录，可以切换到指定的路径。基本的语法是 cd [dirName]，其中dirName是要切换的目标目录，可以是相对路径或绝对路径。例如：使用cd命令进入用户主目录。使用cd ~命令，无论是root用户还是普通用户，都会进入用户的主目录（也叫home目录）阅读全文

posted @ 2024-01-10 17:25 阿飞藏泪阅读(53) 评论(0) 推荐(0) 编辑

Spark的架构角色

摘要：阅读全文

posted @ 2024-01-10 16:47 阿飞藏泪阅读(4) 评论(0) 推荐(0) 编辑

Spark 框架模块和Spark的运行模式 -

摘要：整个Spark 框架模块包含：Spark Core、 Spark SQL、 Spark Streaming、 Spark GraphX、 Spark MLlib，而后四项的能力都是建立在核心引擎之上 Spark Core：Spark的核心，Spark核心功能均由Spark Core模块提供，是Spa 阅读全文

posted @ 2024-01-10 16:41 阿飞藏泪阅读(13) 评论(0) 推荐(0) 编辑

Spark四大特点

摘要： Apache Spark是一个开源的分布式计算框架，拥有四大显著特点： 1. **速度快**：Spark基于内存的运算效率要快100倍以上，基于硬盘的运算效率也要快10倍以上。其先进的DAG调度程序、查询优化程序和物理执行引擎，使得Spark能高效处理数据流。 2. **易用性**：Spark支持J 阅读全文

posted @ 2024-01-10 16:39 阿飞藏泪阅读(139) 评论(0) 推荐(0) 编辑

进程与线程关系

摘要：进程和线程是操作系统中的两个基本概念，它们之间的关系可以从以下几个方面来理解：定义与特性：进程是一个程序在计算机上的一次执行过程，它拥有自己独立的内存空间和系统资源。而线程则是进程中的一个执行任务，负责当前进程中程序的执行。每个进程都有自己独立的一块内存空间，一个进程可以有多个线程。关系与区别：阅读全文

posted @ 2024-01-10 16:34 阿飞藏泪阅读(43) 评论(0) 推荐(0) 编辑

面试题：Hadoop的基于进程的计算和Spark基于线程方式优缺点？

摘要： Hadoop中的MR中每个map/reduce task都是一个java进程方式运行，好处在于进程之间是互相独立的，每个task独享进程资源，没有互相干扰，监控方便，但是问题在于task之间不方便共享数据，执行效率比较低。比如多个map task读取不同数据源文件需要将数据源加载到每个map t 阅读全文

posted @ 2024-01-10 16:21 阿飞藏泪阅读(17) 评论(0) 推荐(0) 编辑

Spark开始

摘要：定义：Apache Spark是用于大规模数据（large-scala data）处理的统一（unified）分析引擎。简而言之，Spark 借鉴了 MapReduce 思想发展而来，保留了其分布式并行计算的优点并改进了其明显的缺陷。让中间数据存储在内存中提高了运行速度、并提供丰富的操作数据的A 阅读全文

posted @ 2024-01-10 16:21 阿飞藏泪阅读(2) 评论(0) 推荐(0) 编辑

区块链技术

摘要：区块链技术是一种分布式账本技术，具有去中心化、不可篡改、安全可靠和可追溯等特点，广泛应用于金融、物流、医疗、知识产权等领域。区块链是一种不可篡改的共享账本，用于记录交易、跟踪资产和建立信任。区块链技术是一种高级数据库机制，允许在企业网络中透明地共享信息。阅读全文

posted @ 2024-01-10 15:38 阿飞藏泪阅读(5) 评论(0) 推荐(0) 编辑

daitu66

公告