Fork me on GitHub
摘要: AI到AI通信:Gibberlink https://github.com/PennyroyalTea/gibberlink 在 ElevenLabs 伦敦黑客马拉松的一次开创性演示中,开发人员推出了 GibberLink,这是一种新颖的协议,可让人工智能语音助手使用针对机器而非人类优化的语言进行交 阅读全文
posted @ 2025-02-27 16:46 stardsd 阅读(19) 评论(0) 推荐(0) 编辑
摘要: Transformer体系结构已经成为大型语言模型(llm)成功的主要组成部分。为了进一步改进llm,人们正在研发可能优于Transformer体系结构的新体系结构。其中一种方法是Mamba(一种状态空间模型)。 Mamba: Linear-Time Sequence Modeling with S 阅读全文
posted @ 2025-02-27 14:35 stardsd 阅读(9) 评论(0) 推荐(0) 编辑
摘要: MCP全称是Model Context Protocol, 也就是”模型上下文协议”, 是Anthropic这家公司搞的一个AI应用协议。这个东西服务于AI应用(而不是AI模型),之所以强调这个,是因为很多人分不清楚大语言模型与大语言模型应用的差别。 那AI应用为什么需要MCP呢? 大部分大语言模型 阅读全文
posted @ 2025-02-26 14:58 stardsd 阅读(187) 评论(0) 推荐(0) 编辑
摘要: 大模型一体机行业内幕 DeepSeek大模型一体机特点:私有化部署、交付容易、价格低廉,适合内网IT改造和CIO们的创新选择,也是目前被疯抢的原因。 大模型一体机从功能上要分ABC三类:A类:主要是硬件就是机头+AI卡,组成的纯纯的AI硬件服务器。B类:在A类的技术上加上Deepseek模型和开发平 阅读全文
posted @ 2025-02-21 10:56 stardsd 阅读(429) 评论(0) 推荐(0) 编辑
摘要: GPQA The following are 10 questions. Answer each of the multiple choice question. Only use the letter for the answer. What is the world's largest livi 阅读全文
posted @ 2025-02-21 09:42 stardsd 阅读(13) 评论(0) 推荐(0) 编辑
摘要: 基本数据并行(DP)在训练模型时,不会降低每个设备的内存占用。在当前配备 32GB 内存的 GPU 上,当模型参数超过 14 亿时,使用 DP 就会出现内存不足的情况。这是因为 DP 会在每个设备上复制完整的模型参数、梯度和优化器状态等模型状态数据。以一个参数规模较大的模型为例,每个设备都要存储完整 阅读全文
posted @ 2025-02-10 15:26 stardsd 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 在 DeepSeek 模型中,多头潜在注意力(Multi-Head Latent Attention,MLA) 是一种关键技术,旨在通过低秩压缩方法优化注意力机制的计算效率和内存使用。MLA 通过对键(Key)和值(Value)进行低秩联合压缩,显著减少了推理过程中的键值缓存(KV Cache),在 阅读全文
posted @ 2025-02-05 16:51 stardsd 阅读(1735) 评论(0) 推荐(0) 编辑
摘要: 看到DeepSeek-V3使用了多token预测(Multi-token Prediction, MTP)技术,该技术原始论文是由Meta 发在ICML 2024的一篇Poster。 论文: [2404.19737] Better & Faster Large Language Models via 阅读全文
posted @ 2025-01-17 09:35 stardsd 阅读(1298) 评论(0) 推荐(0) 编辑
摘要: Generalist AI (AGI) framework based on the principles of embodiment, grounding, causality and memory 图:通用 AGI 系统的功能框图。概念模型由以下部分组成:(1)核心框架、体现,提供与世界接口和交 阅读全文
posted @ 2025-01-14 17:10 stardsd 阅读(33) 评论(0) 推荐(0) 编辑
摘要: 类型 主要功能 在LLMs中的实现方法 感官记忆 短暂存储感官信息以供认知系统访问。 缓冲输入/输出系统;感官输入的锁存机制;仿生感官记忆技术。 作为一种缓冲机制,允许认知处理组件在不同速度下工作而不丢失信息。 过滤信息(例如,通过注意机制)以供长期存储。 在线记忆 暂时存储活跃信息以支持认知处理。 阅读全文
posted @ 2025-01-14 16:48 stardsd 阅读(31) 评论(0) 推荐(0) 编辑
摘要: 符号嵌入问题(Symbol Grounding Problem)是认知科学、心灵哲学和人工智能中的一个关键问题。它探讨的是符号(或词语)是如何在一个系统中获得意义的。换句话说,抽象符号(如单词或概念)是如何代表现实世界中的对象、行为或经验的? 关键概念 符号表示:指的是将意义编码为抽象符号的理念,例 阅读全文
posted @ 2025-01-14 15:48 stardsd 阅读(61) 评论(0) 推荐(0) 编辑
摘要: 空间思考:多模态大型语言模型如何看待、记忆和回忆空间 VSI-Bench:我们引入了一个高质量的基准,用于评估 MLLM 的 3D、基于视频的视觉空间智能 评估:我们在开源和闭源 MLLM 上对 VSI-Bench 进行了评估,发现 MLLM 表现出有竞争力的(尽管不如人类)视觉空间智能。 语言分析 阅读全文
posted @ 2025-01-08 17:07 stardsd 阅读(89) 评论(0) 推荐(0) 编辑
摘要: 本文介绍了 NEC 公司研发的利用人工智能自主优化 5G 网络的技术,该技术可实时分析应用状态和无线质量,自主优化 5G 网络,以确保机器人和汽车远程控制所需的可靠性和实时性能。具体内容如下: 技术背景与目标 重要性与问题:5G 网络对数字化转型和高级应用至关重要,但多数应用在通信质量下降时生产力会 阅读全文
posted @ 2024-12-25 15:18 stardsd 阅读(88) 评论(0) 推荐(0) 编辑
摘要: 与主要专注于文本生成和回复的传统 LLMs 不同,LAMs 旨在在物理和数字环境中执行动作。 核心观点 LAMs 是 AI 发展的重要方向,能够将 AI 从被动语言理解转变为主动任务完成,在人工智能发展进程中具有重要意义。 LAMs 通过在物理和数字环境中执行动作,实现了从语言交互到实际行动的跨越, 阅读全文
posted @ 2024-12-24 15:46 stardsd 阅读(102) 评论(0) 推荐(0) 编辑
摘要: 1. 视频编解码协议和视频传输协议的区别: 视频编解码协议是指在视频采集、压缩、存储、传输和显示过程中,对视频数据进行编码和解码的规则和方法。视频编解码协议的目的是为了减少视频数据的冗余,提高视频质量,降低视频码率,节省网络带宽和存储空间。常见的视频编解码协议有 MPEG-4、H.264、H.265 阅读全文
posted @ 2024-01-06 09:38 stardsd 阅读(1005) 评论(0) 推荐(0) 编辑
摘要: 通信的三个层面的问题: 层面A(技术问题):通讯符号如何准确地加以传输? 层面B(语义问题):传输的符号如何精确地传达含义? 层面C(效用问题):收到的含义如何以期望的方式有效地影响行为? 语义通讯泛指不同的智能体之间进行的以“ 达意” 为目的的通讯.这里的“ 智能体” 可以指人类、智能机器甚至其它 阅读全文
posted @ 2024-01-05 21:26 stardsd 阅读(619) 评论(0) 推荐(0) 编辑
摘要: 推荐论文: https://arxiv.org/abs/2211.13745 论文摘要:本文研究了设备边缘协同推理系统中 CNN 推理的计算卸载。受新兴语义通信范式的启发,我们提出了一种新颖的基于自动编码器的 CNN 架构(AECNN),用于在终端设备上进行有效的特征提取。我们基于CNN中的通道注意 阅读全文
posted @ 2024-01-05 20:37 stardsd 阅读(226) 评论(0) 推荐(0) 编辑
摘要: 课程链接: https://edu.aliyun.com/course/315432/ 课程介绍 高校精品课-华中科技大学 -智能媒体计算 出品讲师:于俊清 课时列表 第0章:学习资源领取 课时0:免费领取云资源额度 第1章:章节一共13课时 课时1:科技革命 28:42 课时2:互联网时代、课程简 阅读全文
posted @ 2024-01-05 17:31 stardsd 阅读(99) 评论(0) 推荐(0) 编辑
摘要: 【官方文档地址】:使用 FFmpeg 和 NVIDIA GPU 硬件加速 ( PDF ) 从 Kepler 一代开始的所有 NVIDIA® GPU 都支持完全加速的硬件视频编码和解码。在本文档的其余部分中,硬件编码器和硬件解码器分别称为 NVENC 和 NVDEC。 NVENC和NVDEC的硬件能力 阅读全文
posted @ 2024-01-05 17:00 stardsd 阅读(3664) 评论(0) 推荐(0) 编辑
摘要: 我们进行图片分类,做一些人工智能的项目或者利用Python来对图片进行分类,都可以利用到Exif信息。 什么是Exif? Exif是一种图像文件格式,实际上Exif格式就是在JPEG格式头部插入了数码照片的信息,包括拍摄时的光圈、快门、白平衡、ISO、焦距、日期时间等各种和拍摄条件以及相机品牌、型号 阅读全文
posted @ 2023-07-19 14:46 stardsd 阅读(2743) 评论(0) 推荐(0) 编辑
摘要: MIME 类型 媒体类型(通常称为 Multipurpose Internet Mail Extensions 或 MIME 类型)是一种标准,用来表示文档、文件或字节流的性质和格式。它在IETF RFC 6838中进行了定义和标准化。 互联网号码分配机构(IANA)是负责跟踪所有官方 MIME 类 阅读全文
posted @ 2023-07-19 14:17 stardsd 阅读(197) 评论(0) 推荐(0) 编辑
摘要: 在数位图像处理领域中,色度抽样是指在表示图像时使用较亮度信息为低的分辨率来表示色彩(色度)信息。当对模拟分量视频或者YUV讯号进行数字抽样时,一般会用到色度抽样。 原理 由于存储及发送的限制,信号处理中大多数会偏向被减少(或被压缩)以减低负荷。由于人眼对色度的敏感度不及对亮度的敏感度,图像的色度分量 阅读全文
posted @ 2023-07-19 13:51 stardsd 阅读(421) 评论(0) 推荐(0) 编辑
摘要: lumo 是一个精简高效的库,简化了实验所需的所有组件的管理,并特别关注增强深度学习实践者的体验。 实验管理:: 为每次运行分配唯一路径,区分不同类型的文件并存储;通过 git 管理代码快照;记录实验中产生的一切信息,保障可回溯、可复现 参数管理:基于 fire 提供比 argparser 更便捷的 阅读全文
posted @ 2023-07-17 16:35 stardsd 阅读(91) 评论(0) 推荐(0) 编辑
摘要: PyTorch已经足够简单易用,但是简单易用不等于方便快捷。特别是做大量实验的时候,很多东西都会变得复杂,代码也会变得庞大,这时候就容易出错。针对这个问题,就有了PyTorch Lightning。它可以重构你的PyTorch代码,抽出复杂重复部分,让你专注于核心的构建,让你的实验更快速更便捷地开展 阅读全文
posted @ 2023-07-17 16:18 stardsd 阅读(550) 评论(0) 推荐(0) 编辑
摘要: Kornia 是一款基于 PyTorch 的可微分的计算机视觉库。 它由一组用于解决通用计算机视觉问题的操作模块和可微分模块组成。其核心使用 PyTorch 作为主要后端,以提高效率并利用反向模式自动微分来定义和计算复杂函数的梯度。 概览 受现有开源库的启发,Kornia可以由包含各种可以嵌入神经网 阅读全文
posted @ 2023-07-17 15:53 stardsd 阅读(361) 评论(0) 推荐(0) 编辑
摘要: 我们介绍了一种名为可组合扩散(CoDi)的新型生成模型,能够从任意输入模态的任意组合中生成任意组合的输出模态,例如语言、图像、视频或音频。与现有的生成人工智能系统不同,CoDi能够同时生成多个模态,并且其输入不限于文本或图像等子集模态。尽管许多模态组合缺乏训练数据集,我们提出在输入和输出空间中对模态 阅读全文
posted @ 2023-07-11 17:42 stardsd 阅读(215) 评论(0) 推荐(0) 编辑
摘要: Elasticsearch 从 2022 年 2 月发布的 8.0 版本开始,提供了基于向量的搜索和自然语言处理(NLP)功能。 下图清楚地展示了向量搜索引擎的工作原理。它涉及以下几个步骤: 将原始实体(如歌曲、图像或文本)转换为数字表示(向量 Embedding); 使用距离度量来表示向量之间的相 阅读全文
posted @ 2023-07-11 16:36 stardsd 阅读(369) 评论(0) 推荐(0) 编辑
摘要: LZ77简介 Ziv和Lempel于1977年发表题为“顺序数据压缩的一个通用算法(A Universal Algorithm for Sequential Data Compression )”的论文,论文中描述的算法被后人称为LZ77算法。值得说的是,LZ77严格意义上来说不是一种算法,而是一种 阅读全文
posted @ 2023-07-11 14:21 stardsd 阅读(233) 评论(0) 推荐(0) 编辑
摘要: 一、 Web中间件(Web middleware) web中间件是指位于Web服务器和Web应用程序之间的软件组件或库,用于实现附加功能、处理请求和向应用程序提供服务。这些中间件通过提供身份验证、日志记录、路由、缓存、负载平衡等特性,增强了web应用程序的功能和灵活性。 二、 web服务器: web 阅读全文
posted @ 2023-07-09 15:15 stardsd 阅读(1541) 评论(0) 推荐(0) 编辑
摘要: Algolia是一个搜索和发现API,帮助公司为其网站和移动应用构建搜索体验。Algolia提供后端API客户端和前端小部件,帮助公司管理其数据并构建搜索体验。Algolia是与数据库无关的,因此可以与任何数据源一起使用,包括NoSQL数据库。 Algolia成立于2012年,由Nicolas De 阅读全文
posted @ 2023-07-02 17:11 stardsd 阅读(72) 评论(0) 推荐(0) 编辑
摘要: 一、概述Ο,读音:big-oh;表示上界,小于等于。 Ω,读音:big omega、欧米伽;表示下界,大于等于。 Θ,读音:theta、西塔;既是上界也是下界,称为确界,等于。 ο,读音:small-oh;表示上界,小于。 ω,读音:small omega;表示下界,大于。 Ο是渐进上界,Ω是渐进下 阅读全文
posted @ 2023-06-27 17:03 stardsd 阅读(1456) 评论(0) 推荐(0) 编辑
摘要: 5G承载网是为5G无线接入网和核心网提供网络连接的基础网络。 为了满足5G应用场景的需求,5G承载网采用新的网络架构和关键技术,为5G网络提供超大带宽、超低时延、灵活智能的连接服务。 目录 5G对承载网提出了哪些需求? 5G承载网的网络结构是什么样的? 5G承载网的关键技术有哪些? 5G对承载网提出 阅读全文
posted @ 2023-06-26 15:05 stardsd 阅读(357) 评论(0) 推荐(0) 编辑
摘要: Content Aware ABR技术 本文将简要介绍一下编码优化领域的一位新贵—Beamr的技术动态。 Beamr是内容自适应视频编码与优化解决方案的提供商,致力于为MSO(Multi-System Operator,多系统运营商)和OTT(Over The Top,流媒体服务商)提供视频技术支持 阅读全文
posted @ 2023-06-16 16:30 stardsd 阅读(241) 评论(0) 推荐(0) 编辑
摘要: 半色调是一种复印技术,它通过使用点来模拟连续色调图像,点的大小或间距各不相同,从而产生类似渐变的效果。[1] “Halftone”也可以用来特指由此过程产生的图像。[1] 在连续色调图像包含无限范围的颜色或灰色的情况下,半色调过程将视觉再现减少为仅使用一种颜色墨水打印的图像,以不同大小(脉冲宽度调制 阅读全文
posted @ 2023-06-16 15:30 stardsd 阅读(432) 评论(0) 推荐(0) 编辑
摘要: JPEG XL 是一种免版税的图像文件格式,支持有损和无损压缩。 它旨在超越现有的栅格格式并成为它们的通用替代品。与其他流行的图像格式(尤其是旧的 JPEG 格式)相比,JPEG XL 旨在提高图像保真度,同时减小文件大小。 它提供比传统 JPEG 更好的图像质量和压缩率。JPEG XL 支持现代功 阅读全文
posted @ 2023-06-15 16:39 stardsd 阅读(1746) 评论(0) 推荐(0) 编辑
摘要: 安装和使用过程: 1. Install Intel Media Server Studio for Linux. Download from software.intel.com/intel-media-serverstudio. This is a prerequisite for the *_q 阅读全文
posted @ 2023-06-13 11:30 stardsd 阅读(300) 评论(0) 推荐(0) 编辑
摘要: NVENC 代表 NVIDIA 编码器。 它是一个集成到 Nvidia 专用 GPU 中的硬件视频编码器。 NVENC 负责对来自 CPU 的视频流进行编码,而是使用专用的 Nvidia 显卡。NVENC 于 2012 年 3 月与 Nvidia GeForce GTX 600 系列显卡一起推出。它 阅读全文
posted @ 2023-06-13 11:24 stardsd 阅读(1423) 评论(0) 推荐(0) 编辑
摘要: JPEGmini is a desktop application for Mac and Windows that reduces the file size of images and videos without compromising their quality. It was devel 阅读全文
posted @ 2023-06-13 10:55 stardsd 阅读(21) 评论(0) 推荐(0) 编辑
摘要: NVIDIA Performance Primitives GPU 上的图像和信号处理 NVIDIA Performance Primitives (NPP) 库提供 GPU 加速的图像、视频和信号处理函数,其执行速度比仅使用 CPU 的实现快 30 倍。借助超过 5,000 个用于图像和信号处理的 阅读全文
posted @ 2023-06-13 10:47 stardsd 阅读(476) 评论(0) 推荐(0) 编辑
摘要: 并行智能是现实与虚拟现实之间的交互。这是一个复杂的概念,已被应用于许多领域,包括智能交通、艺术创作、计算机视觉和智能传感器。 并行智能最早由王飞跃于2004年提出,用于构建可用于验证社会政策、经济战略和军事行动的人工系统。 论文地址: https://ieeexplore.ieee.org/docu 阅读全文
posted @ 2023-06-12 14:26 stardsd 阅读(131) 评论(0) 推荐(0) 编辑