stardsd - 博客园

2025年7月8日

智能体的L0～L5分级（Levels of agent automation，智能体自动化级别）

摘要： Table 4: Levels of agent automation 表4：智能体自动化级别 Level 等级 Description 描述 Key characteristics 关键特征 Examples 示例 Level 0: Manual (no automation) 0级：手动（无自动阅读全文

posted @ 2025-07-08 15:53 stardsd 阅读(678) 评论(0) 推荐(0)

Omdia 6G前瞻与非地面网络（NTN）

摘要：一段话总结：6G预计于2027-2030年部署，2037年成为主导技术，行业对10年迭代周期存在争议（欧美倾向打破，亚洲加速创新）。Omdia预测，2030年6G RAN投资达$40亿，订阅量2.89亿；2035年RAN投资增至$250亿，订阅量达35亿（占全球22.3%）。6G将实现更高容量、速率阅读全文

posted @ 2025-07-08 15:23 stardsd 阅读(195) 评论(0) 推荐(0)

2025年7月1日

大型语言模型（LLM）技术综述

摘要：大型语言模型算法前沿：当前AI格局下的架构、方法与评估 1. 架构的基石：从Transformer到专业化专家本节解构了驱动现代大型语言模型（LLM）的核心架构范式。我们将从基础的Transformer模型入手，分析其固有的局限性，然后系统地探索为应对这些挑战而涌现的创新解决方案，即专家混合模型（阅读全文

posted @ 2025-07-01 16:03 stardsd 阅读(710) 评论(0) 推荐(0)

大型语言模型（LLM）技术报告

摘要：摘要本报告旨在全面深入地探讨大型语言模型（LLM）的前沿技术和发展趋势，并结合最新的国际AI前沿进展进行更新。报告涵盖了LLM的主流技术路线、数据集、预训练、微调、部署与优化，以及多模态模型和性能评估等多个关键方面。我们特别关注国际AI前沿的最新进展，兼顾通用模型和开源模型，并对多模态LLM和性能阅读全文

posted @ 2025-07-01 15:23 stardsd 阅读(1482) 评论(0) 推荐(0)

2025年5月8日

Microsoft DeepSpeed

摘要： DeepSpeed Chat：轻松、快速且经济地在所有规模上对 ChatGPT 类模型进行 RLHF 训练要引用 DeepSpeed Chat，请引用我们的arxiv 报告： @article{yao2023dschat, title={{DeepSpeed-Chat: Easy, Fast an 阅读全文

posted @ 2025-05-08 16:02 stardsd 阅读(135) 评论(0) 推荐(0)

The NVIDIA Data Loading Library (DALI®)

摘要： https://github.com/NVIDIA/DALI DALI库的核心优势在于其GPU加速能力。传统的数据预处理过程大多在CPU上执行，包括数据的加载、解码、裁剪、调整大小等操作，这些操作往往是计算密集型的，且受限于CPU的计算能力。而DALI库通过将部分或全部数据预处理任务卸载到GPU上执阅读全文

posted @ 2025-05-08 15:38 stardsd 阅读(219) 评论(0) 推荐(0)

数据并行、张量并行及其实现

摘要：在大模型训练中，通信成本是影响训练效率的关键瓶颈之一。数据并行（Data Parallelism）和张量并行（Tensor Parallelism）通过各自的策略来降低通信开销、提升效率。下面从它们的通信特点和优化方式来分析。一、数据并行（Data Parallelism）原理：每个 G 阅读全文

posted @ 2025-05-08 15:29 stardsd 阅读(1394) 评论(0) 推荐(0)

MFU（Model FLOPs Utilization）与大模型的训练效率

摘要：一、问题背景随着AIGC领域的兴起，各大厂商都在训练和推出自研的大模型结构，并结合业务进行落地和推广。在大模型分布式训练场景中，主流的主要是基于英伟达GPU进行训练（如A100），如何有效地压榨GPU的计算能力，提升训练效率，降低训练成本，是一个非常重要的实践优化问题。 1.1 直接目标最直接地阅读全文

posted @ 2025-05-08 14:58 stardsd 阅读(3045) 评论(0) 推荐(0)

2025年4月21日

使用uv管理Python包：实例

摘要：使用 uv 管理多个虚拟环境（venv）时，可以做到快速、高效、干净地切换项目环境。 🎯 一、最佳实践：每个项目一个虚拟环境建议把虚拟环境放在项目目录内或统一放在一个专用目录，比如：项目目录下的 .venv/ 统一放到 ~/.venvs/<项目名>/ 🚀 二、uv 管理多个 venv 的基阅读全文

posted @ 2025-04-21 10:25 stardsd 阅读(4611) 评论(0) 推荐(0)

2025年4月18日

Google Agent2Agent Protocol

摘要：【深度解析】谷歌A2A（Agent2Agent）协议：AI智能体协作的未来基石 📝 摘要：谷歌A2A（Agent2Agent）协议为AI智能体之间的开放协作与通信提供了标准化框架。本文系统梳理A2A协议的设计理念、核心机制、典型实现与应用场景，结合完整代码示例，深入剖析其在多智能体系统中的价值与未阅读全文

posted @ 2025-04-18 17:18 stardsd 阅读(610) 评论(0) 推荐(0)

2025年4月17日

OpenAI Codex Cli

摘要： OpenAI Codex Cli 在您的终端中运行的轻量级编码代理 npm i -g @openai/codex 快速入门全局安装： npm install -g @openai/codex 接下来，将您的 OpenAI API 密钥设置为环境变量： export OPENAI_API_KEY=" 阅读全文

posted @ 2025-04-17 15:09 stardsd 阅读(2434) 评论(0) 推荐(0)

2025年3月21日

2025Q1 AI行业季度报告

摘要：截至2025年第一季度，国际AI研究呈现技术深化、行业融合加速、基础设施需求旺盛三大趋势。以下从学术突破、技术应用、硬件创新、行业挑战四个维度展开分析：一、学术研究：模型能力与效率双重突破知识图谱与大模型融合蚂蚁集团在NeurIPS 2024提出的KGL（知识图谱语言），通过将知识图谱三元组结阅读全文

posted @ 2025-03-21 13:20 stardsd 阅读(401) 评论(0) 推荐(0)

2025年3月6日

MAS：Multi-Agent Systems

摘要：多智能体系统 (MAS) 由多个人工智能 (AI) 智能体组成，它们共同代表用户或其他系统执行任务。 MAS 中的每个代理都具有各自的属性，但所有代理都会协同工作以实现所需的全局属性。1多代理系统在完成可能涉及数百甚至数千个代理的大规模复杂任务方面很有价值。2 这一理念的核心是人工智能 (AI) 阅读全文

posted @ 2025-03-06 11:02 stardsd 阅读(1292) 评论(0) 推荐(0)

2025年2月27日

AI-to-AI Communication：Gibberlink

摘要： AI到AI通信：Gibberlink https://github.com/PennyroyalTea/gibberlink 在 ElevenLabs 伦敦黑客马拉松的一次开创性演示中，开发人员推出了 GibberLink，这是一种新颖的协议，可让人工智能语音助手使用针对机器而非人类优化的语言进行交阅读全文

posted @ 2025-02-27 16:46 stardsd 阅读(439) 评论(0) 推荐(0)

Mamba详细介绍和RNN、Transformer的架构可视化对比

摘要： Transformer体系结构已经成为大型语言模型(llm)成功的主要组成部分。为了进一步改进llm，人们正在研发可能优于Transformer体系结构的新体系结构。其中一种方法是Mamba（一种状态空间模型）。 Mamba: Linear-Time Sequence Modeling with S 阅读全文

posted @ 2025-02-27 14:35 stardsd 阅读(872) 评论(0) 推荐(0)

2025年2月26日

大模型Agent中的MCP协议

摘要： MCP全称是Model Context Protocol，也就是”模型上下文协议”，是Anthropic这家公司搞的一个AI应用协议。这个东西服务于AI应用（而不是AI模型），之所以强调这个，是因为很多人分不清楚大语言模型与大语言模型应用的差别。那AI应用为什么需要MCP呢？大部分大语言模型阅读全文

posted @ 2025-02-26 14:58 stardsd 阅读(3964) 评论(2) 推荐(1)

2025年2月21日

大模型硬件&模型选型指南

摘要：大模型一体机行业内幕 DeepSeek大模型一体机特点：私有化部署、交付容易、价格低廉，适合内网IT改造和CIO们的创新选择，也是目前被疯抢的原因。大模型一体机从功能上要分ABC三类：A类：主要是硬件就是机头+AI卡，组成的纯纯的AI硬件服务器。B类：在A类的技术上加上Deepseek模型和开发平阅读全文

posted @ 2025-02-21 10:56 stardsd 阅读(1606) 评论(0) 推荐(0)

一些LLM评估测试用例（中英文版）

摘要： GPQA The following are 10 questions. Answer each of the multiple choice question. Only use the letter for the answer. What is the world's largest livi 阅读全文

posted @ 2025-02-21 09:42 stardsd 阅读(307) 评论(0) 推荐(0)

2025年2月10日

大模型训练中的数据并行（DP）、流水线并行（PP）和模型并行（MP）

摘要：基本数据并行（DP）在训练模型时，不会降低每个设备的内存占用。在当前配备 32GB 内存的 GPU 上，当模型参数超过 14 亿时，使用 DP 就会出现内存不足的情况。这是因为 DP 会在每个设备上复制完整的模型参数、梯度和优化器状态等模型状态数据。以一个参数规模较大的模型为例，每个设备都要存储完整阅读全文

posted @ 2025-02-10 15:26 stardsd 阅读(1156) 评论(0) 推荐(0)

2025年2月5日

多头潜在注意力（Multi-Head Latent Attention，MLA）

摘要：在 DeepSeek 模型中，多头潜在注意力（Multi-Head Latent Attention，MLA）是一种关键技术，旨在通过低秩压缩方法优化注意力机制的计算效率和内存使用。MLA 通过对键（Key）和值（Value）进行低秩联合压缩，显著减少了推理过程中的键值缓存（KV Cache），在阅读全文

posted @ 2025-02-05 16:51 stardsd 阅读(3686) 评论(0) 推荐(0)

2025年1月17日

多Token预测（Multi-Token Prediction, MTP）技术

摘要：看到DeepSeek-V3使用了多token预测（Multi-token Prediction, MTP）技术，该技术原始论文是由Meta 发在ICML 2024的一篇Poster。论文： [2404.19737] Better & Faster Large Language Models via 阅读全文

posted @ 2025-01-17 09:35 stardsd 阅读(2877) 评论(0) 推荐(0)

2025年1月14日

一种基于具身化、符号嵌入、因果学习和记忆原则的通用人工智能（AGI）框架

摘要： Generalist AI (AGI) framework based on the principles of embodiment, grounding, causality and memory 图：通用 AGI 系统的功能框图。概念模型由以下部分组成：（1）核心框架、体现，提供与世界接口和交阅读全文

posted @ 2025-01-14 17:10 stardsd 阅读(128) 评论(0) 推荐(0)

LLMs的记忆能力分析及其分类

摘要：类型主要功能在LLMs中的实现方法感官记忆短暂存储感官信息以供认知系统访问。缓冲输入/输出系统；感官输入的锁存机制；仿生感官记忆技术。作为一种缓冲机制，允许认知处理组件在不同速度下工作而不丢失信息。过滤信息（例如，通过注意机制）以供长期存储。在线记忆暂时存储活跃信息以支持认知处理。阅读全文

posted @ 2025-01-14 16:48 stardsd 阅读(148) 评论(0) 推荐(0)

人工智能中的符号嵌入问题（Symbol Grounding Problem，又称符号奠基问题，符号接地问题）

摘要：符号嵌入问题（Symbol Grounding Problem）是认知科学、心灵哲学和人工智能中的一个关键问题。它探讨的是符号（或词语）是如何在一个系统中获得意义的。换句话说，抽象符号（如单词或概念）是如何代表现实世界中的对象、行为或经验的？关键概念符号表示：指的是将意义编码为抽象符号的理念，例阅读全文

posted @ 2025-01-14 15:48 stardsd 阅读(646) 评论(0) 推荐(0)

2025年1月8日

世界模型和空间智能

摘要：空间思考：多模态大型语言模型如何看待、记忆和回忆空间 VSI-Bench：我们引入了一个高质量的基准，用于评估 MLLM 的 3D、基于视频的视觉空间智能评估：我们在开源和闭源 MLLM 上对 VSI-Bench 进行了评估，发现 MLLM 表现出有竞争力的（尽管不如人类）视觉空间智能。语言分析阅读全文

posted @ 2025-01-08 17:07 stardsd 阅读(324) 评论(0) 推荐(0)

2024年12月25日

AI for Network：日本电气株式会社（NEC）5G自主优化

摘要：本文介绍了 NEC 公司研发的利用人工智能自主优化 5G 网络的技术，该技术可实时分析应用状态和无线质量，自主优化 5G 网络，以确保机器人和汽车远程控制所需的可靠性和实时性能。具体内容如下：技术背景与目标重要性与问题：5G 网络对数字化转型和高级应用至关重要，但多数应用在通信质量下降时生产力会阅读全文

posted @ 2024-12-25 15:18 stardsd 阅读(255) 评论(0) 推荐(0)

2024年12月24日

从 LLM 到 LAM ：Large Action Models

摘要：与主要专注于文本生成和回复的传统 LLMs 不同，LAMs 旨在在物理和数字环境中执行动作。核心观点 LAMs 是 AI 发展的重要方向，能够将 AI 从被动语言理解转变为主动任务完成，在人工智能发展进程中具有重要意义。 LAMs 通过在物理和数字环境中执行动作，实现了从语言交互到实际行动的跨越，阅读全文

posted @ 2024-12-24 15:46 stardsd 阅读(386) 评论(0) 推荐(0)

2024年1月6日

视频编解码协议和视频传输协议

摘要： 1. 视频编解码协议和视频传输协议的区别：视频编解码协议是指在视频采集、压缩、存储、传输和显示过程中，对视频数据进行编码和解码的规则和方法。视频编解码协议的目的是为了减少视频数据的冗余，提高视频质量，降低视频码率，节省网络带宽和存储空间。常见的视频编解码协议有 MPEG-4、H.264、H.265 阅读全文

posted @ 2024-01-06 09:38 stardsd 阅读(1404) 评论(0) 推荐(0)

2024年1月5日

语义通信——概念与方法

摘要：通信的三个层面的问题：层面A(技术问题):通讯符号如何准确地加以传输? 层面B(语义问题):传输的符号如何精确地传达含义? 层面C(效用问题):收到的含义如何以期望的方式有效地影响行为? 语义通讯泛指不同的智能体之间进行的以“ 达意” 为目的的通讯.这里的“ 智能体” 可以指人类、智能机器甚至其它阅读全文

posted @ 2024-01-05 21:26 stardsd 阅读(1267) 评论(0) 推荐(0)

特征量化编码入门指南

摘要：推荐论文： https://arxiv.org/abs/2211.13745 论文摘要：本文研究了设备边缘协同推理系统中 CNN 推理的计算卸载。受新兴语义通信范式的启发，我们提出了一种新颖的基于自动编码器的 CNN 架构（AECNN），用于在终端设备上进行有效的特征提取。我们基于CNN中的通道注意阅读全文

posted @ 2024-01-05 20:37 stardsd 阅读(495) 评论(0) 推荐(0)

视频编解码课程：智能媒体计算（阿里云培训中心）

摘要：课程链接： https://edu.aliyun.com/course/315432/ 课程介绍高校精品课-华中科技大学 -智能媒体计算出品讲师：于俊清课时列表第0章：学习资源领取课时0：免费领取云资源额度第1章：章节一共13课时课时1：科技革命 28:42 课时2：互联网时代、课程简阅读全文

posted @ 2024-01-05 17:31 stardsd 阅读(176) 评论(0) 推荐(0)

基于 FFmpeg 和 NVIDIA GPU 的视频硬件编解码实验

摘要：【官方文档地址】：使用 FFmpeg 和 NVIDIA GPU 硬件加速 ( PDF ) 从 Kepler 一代开始的所有 NVIDIA® GPU 都支持完全加速的硬件视频编码和解码。在本文档的其余部分中，硬件编码器和硬件解码器分别称为 NVENC 和 NVDEC。 NVENC和NVDEC的硬件能力阅读全文

posted @ 2024-01-05 17:00 stardsd 阅读(5568) 评论(0) 推荐(0)

2023年7月19日

图片元信息Exif(Exchangeable Image File)的获取和修改

摘要：我们进行图片分类，做一些人工智能的项目或者利用Python来对图片进行分类，都可以利用到Exif信息。什么是Exif？ Exif是一种图像文件格式，实际上Exif格式就是在JPEG格式头部插入了数码照片的信息，包括拍摄时的光圈、快门、白平衡、ISO、焦距、日期时间等各种和拍摄条件以及相机品牌、型号阅读全文

posted @ 2023-07-19 14:46 stardsd 阅读(3998) 评论(0) 推荐(0)

MIME Type

摘要： MIME 类型媒体类型（通常称为 Multipurpose Internet Mail Extensions 或 MIME 类型）是一种标准，用来表示文档、文件或字节流的性质和格式。它在IETF RFC 6838中进行了定义和标准化。互联网号码分配机构（IANA）是负责跟踪所有官方 MIME 类阅读全文

posted @ 2023-07-19 14:17 stardsd 阅读(329) 评论(0) 推荐(0)

色度二次采样(Chroma Subsampling)

摘要：在数位图像处理领域中，色度抽样是指在表示图像时使用较亮度信息为低的分辨率来表示色彩（色度）信息。当对模拟分量视频或者YUV讯号进行数字抽样时，一般会用到色度抽样。原理由于存储及发送的限制，信号处理中大多数会偏向被减少（或被压缩）以减低负荷。由于人眼对色度的敏感度不及对亮度的敏感度，图像的色度分量阅读全文

posted @ 2023-07-19 13:51 stardsd 阅读(681) 评论(0) 推荐(0)

2023年7月17日

lumo库

摘要： lumo 是一个精简高效的库，简化了实验所需的所有组件的管理，并特别关注增强深度学习实践者的体验。实验管理：: 为每次运行分配唯一路径，区分不同类型的文件并存储；通过 git 管理代码快照；记录实验中产生的一切信息，保障可回溯、可复现参数管理：基于 fire 提供比 argparser 更便捷的阅读全文

posted @ 2023-07-17 16:35 stardsd 阅读(181) 评论(0) 推荐(0)

PyTorch Lightning简约哲学

摘要： PyTorch已经足够简单易用，但是简单易用不等于方便快捷。特别是做大量实验的时候，很多东西都会变得复杂，代码也会变得庞大，这时候就容易出错。针对这个问题，就有了PyTorch Lightning。它可以重构你的PyTorch代码，抽出复杂重复部分，让你专注于核心的构建，让你的实验更快速更便捷地开展阅读全文

posted @ 2023-07-17 16:18 stardsd 阅读(717) 评论(0) 推荐(0)

Kornia：可微分计算机视觉库

摘要： Kornia 是一款基于 PyTorch 的可微分的计算机视觉库。它由一组用于解决通用计算机视觉问题的操作模块和可微分模块组成。其核心使用 PyTorch 作为主要后端，以提高效率并利用反向模式自动微分来定义和计算复杂函数的梯度。概览受现有开源库的启发，Kornia可以由包含各种可以嵌入神经网阅读全文

posted @ 2023-07-17 15:53 stardsd 阅读(550) 评论(0) 推荐(0)

2023年7月11日

CoDi: Any-to-Any Generation via Composable Diffusion

摘要：我们介绍了一种名为可组合扩散（CoDi）的新型生成模型，能够从任意输入模态的任意组合中生成任意组合的输出模态，例如语言、图像、视频或音频。与现有的生成人工智能系统不同，CoDi能够同时生成多个模态，并且其输入不限于文本或图像等子集模态。尽管许多模态组合缺乏训练数据集，我们提出在输入和输出空间中对模态阅读全文

posted @ 2023-07-11 17:42 stardsd 阅读(332) 评论(0) 推荐(0)

向量数据库

摘要： Elasticsearch 从 2022 年 2 月发布的 8.0 版本开始，提供了基于向量的搜索和自然语言处理（NLP）功能。下图清楚地展示了向量搜索引擎的工作原理。它涉及以下几个步骤：将原始实体（如歌曲、图像或文本）转换为数字表示（向量 Embedding）；使用距离度量来表示向量之间的相阅读全文

posted @ 2023-07-11 16:36 stardsd 阅读(494) 评论(0) 推荐(0)

赏月斋

慎终如始宁静致远

公告

赏月斋

慎终如始 宁静致远

公告

慎终如始宁静致远