大数据 - 随笔分类 - hanease

大模型统计

摘要：iCourt（AlphaGPT/Alpha 系统）的模型训练、推理、RAG 使用的数据，以法律领域结构化 / 非结构化权威数据为核心，以下按三类场景整理：一、模型训练使用数据（Token 级语料） iCourt 模型（AlphaGPT）训练以海量法律文本 Token 化语料为基础，覆盖裁判文书、法阅读全文

posted @ 2026-03-09 15:11 hanease 阅读(76) 评论(0) 推荐(0)

apache doris 和 clickhouse的区别

摘要：Apache Doris 和 ClickHouse 均为 MPP（大规模并行处理）架构的列式存储 OLAP 数据库，核心定位都是解决海量数据下的高性能分析查询场景，但二者在技术设计、生态适配、适用场景等维度存在显著差异。以下从核心架构、存储与计算、查询能力、生态与运维、适用场景五大维度展开对比，阅读全文

posted @ 2025-09-18 14:46 hanease 阅读(772) 评论(0) 推荐(0)

linux-大数据常用命令

摘要：1. vi/vim一般模式语法功能描述yy 复制光标当前一行y数字y 复制一段（从第几行到第几行）p 箭头移动到目的行粘贴u 撤销上一步dd 删除光标当前行d数字d 删除光标（含）后多少行x 删除一个字母，相当于delX 删除一个字母，相当于Backspaceyw 复制一个词dw 删除一个词shi 阅读全文

posted @ 2025-01-14 11:03 hanease 阅读(82) 评论(0) 推荐(0)

大数据架构：全网最全大数据架构生态

摘要：1、数据采集框架 2、数据存储框架 3、分布式资源管理调度框架 4、数据计算框架 5、数据分析技术框架 6、任务调度框架 7、基础框架 8、数据检索框架 9、集群安装管理框架总结从这张图谱可以看到，大数据技术体系可以归纳总结为数据分析应用技术、数据管理技术、基础技术、数据安全流通技术四大方向，每阅读全文

posted @ 2022-12-21 14:22 hanease 阅读(1437) 评论(0) 推荐(0)

大数据-总结列表

摘要：大数据总结企业构建大数据技术体系时，会在一级架构的范围内，结合业务需要和未来规划目标，选择部分技术组件进行落地，下图罗列了各个一级架构下的核心技术组件。构建初期，一般会通过CDH或HDP的产品套件，来完成数据采集（Sqoop、Flume）、数据存储（HDFS）、资源调度（Yarn）、分布式计算引擎阅读全文

posted @ 2022-12-21 13:55 hanease 阅读(607) 评论(0) 推荐(0)

Hadoop大数据架构及关键组件-建立大数据知识体系

摘要：Hadoop大数据架构及关键组件1. Hadoop生态系统1.1 架构大数据生态的主要组件及其关系大数据生态大数据架构1. HDFS（Hadoop分布式文件系统）：2. MapReduce(分布式计算框架)：3. HBase(分布式列存数据库)：4. ZooKeeper（分布式协作服务）:5. Hi 阅读全文

posted @ 2022-11-30 09:18 hanease 阅读(1216) 评论(0) 推荐(0)

大数据-架构图

摘要：图例1 图例2 图例3 图例4 图例5 图例6 图例7 图例8 图例9 图例10 图例11 图例12 图例13 图例14 图例15 图例16 图例17 图例18 图例19 图例20 图例21 图例22 图例23 图例24 图例25 图例26 图例27 图例28 图例29 图例30 图例31 图例32 阅读全文

posted @ 2022-11-29 14:25 hanease 阅读(372) 评论(0) 推荐(0)

大数据系统-架构图

摘要：架构图1 架构图2 架构图3 架构图4 架构图5 架构图6 架构图7 架构图8 架构图9 架构图10 架构图11 架构图12 架构图13 架构图14 架构图15 架构图16 架构图17 架构图18 架构图19 架构图20 架构图21 架构图22 架构图23 架构图24 架构图25 架构图26 架构图阅读全文

posted @ 2022-11-29 09:55 hanease 阅读(737) 评论(0) 推荐(0)

Hadoop 概述(二)

摘要：shell定时上传linux日志信息到hdfs 从标题可以分析出来，我们要使用到shell，还要推送日志信息到hdfs上。定义出上传的路径和临时路径，并配置好上传的log日志信息。这里我使用了上一节配置的nginx的error.log #上传log日志文件的存放路径 /bigdata/logs/u 阅读全文

posted @ 2022-05-04 14:20 hanease 阅读(84) 评论(0) 推荐(0)

Hadoop 概述(三)

摘要：HDFS shell API HDFS作为大数据的文件系统，可以放置数据文件，列举几个常用的shell脚本命令，用法和linux中的基本类似，不过这个是hadoop里的一套，所以我们要用hadoop fs开头具体可以使用hadoop fs --help 查看帮助信息例如：lshadoop fs - 阅读全文

posted @ 2022-05-04 14:19 hanease 阅读(107) 评论(0) 推荐(0)

Hadoop 概述(一)

摘要：Hadoop概述信息 hadoop 有三大组成部分，HDFS（分布式文件存储系统）、YARN（资源管理器）、MAPREDUCE（分布式计算框架） ,下边我们来简单介绍一下 HDFS 分布式文件存储系统 HDFS分布式文件系统，是由Google的GFS谷歌文件系统开源出来，其存储模型是有主从结构的，可阅读全文

posted @ 2022-05-04 14:15 hanease 阅读(186) 评论(0) 推荐(0)

数据库数据实时采集--Maxwell

摘要：1、Maxwell 简介 Maxwell 是一个能实时读取 MySQL 二进制日志文件binlog，并生成 Json格式的消息，作为生产者发送给 Kafka，Kinesis、RabbitMQ、Redis、Google Cloud Pub/Sub、文件或其它平台的应用程序。它的常见应用场景有ETL、维阅读全文

posted @ 2022-05-03 19:31 hanease 阅读(776) 评论(0) 推荐(0)

ETL工具--Sqoop

摘要：1. 概述 Sqoop是apache旗下的一款 ”Hadoop和关系数据库之间传输数据”的工具导入数据：将MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统导出数据：从Hadoop的文件系统中导出数据到关系数据库 2. Sqoop的工作机制将导入和导出的命阅读全文

posted @ 2022-05-03 14:53 hanease 阅读(309) 评论(0) 推荐(0)

日志数据采集-Flume

摘要：1. 前言在一个完整的离线大数据处理系统中，除了hdfs+mapreduce+hive组成分析系统的核心之外，还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统，而这些辅助工具在hadoop生态体系中都有便捷的开源框架，如图所示： 2. Flume基本介绍 1. 概述 Flume是一个分布阅读全文

posted @ 2022-05-03 14:48 hanease 阅读(2423) 评论(0) 推荐(0)

工作流程调度器-DolphinScheduler

摘要：1、DolphinScheduler简介 Apache DolphinScheduler](https://dolphinscheduler.apache.org/)（目前处在孵化阶段）是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统，其致力于解决数据处理流程中错综复杂的依赖关系，使调阅读全文

posted @ 2022-05-03 14:34 hanease 阅读(841) 评论(0) 推荐(0)

数据同步工具-DataX

摘要：1、DataX 基本介绍 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具，致力于实现包括：关系型数据库(MySQL、Oracle等)、HDFS、Hive、HBase、ODPS、FTP等各种异构数据源之间稳定高效的数据同步功能。设计理念为了解决异构数据源同步问题，DataX将复杂的网状的阅读全文

posted @ 2022-05-03 14:32 hanease 阅读(673) 评论(0) 推荐(0)

工作流调度器-Azkaban

摘要：1.工作流调度器 1.为什么需要工作流调度系统一个完整的数据分析系统通常都是由大量任务单元组成： shell脚本程序，java程序，mapreduce程序、hive脚本等各任务单元之间存在时间先后及前后依赖关系为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；例如，我们可阅读全文

posted @ 2022-05-03 14:08 hanease 阅读(279) 评论(0) 推荐(0)

Hive教程

摘要：Hive是基于Hadoop的一个数据仓库工具可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。其本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据的存储支持，也可以说hive就是一个MapReduce的客户端 Hive与数据库的区别 Hive的优缺点阅读全文

posted @ 2022-05-03 08:36 hanease 阅读(552) 评论(0) 推荐(0)

HBase-4MapReduce

摘要：集成分析 HBase表中的数据最终都是存储在HDFS上，HBase天生的支持MR的操作，我们可以通过MR直接处理HBase表中的数据，并且MR可以将处理后的结果直接存储到HBase表中。参考地址：http://hbase.apache.org/book.html#mapreduce 1 实现方式一阅读全文

posted @ 2022-05-02 22:40 hanease 阅读(83) 评论(0) 推荐(0)

HBase-3rowkey的设计

摘要：HBase表热点 1 什么是热点检索habse的记录首先要通过row key来定位数据行。当大量的client访问hbase集群的一个或少数几个节点，造成少数region server的读/写请求过多、负载过大，而其他region server负载却很小，就造成了“热点”现象。 2 热点的解决方阅读全文

posted @ 2022-05-02 22:38 hanease 阅读(214) 评论(0) 推荐(0)

hanease

随笔分类 - 大数据

公告