wanghoney - 博客园

2025年2月13日

摘要：【自然语言处理|注意力机制-02】Seq2Seq架构中的注意力机制-CSDN博客一文搞懂 Transformer（总体架构 & 三种注意力层） “AI”科普丨Transformer架构图解最强教程！阅读全文

posted @ 2025-02-13 16:22 wanghoney 阅读(2) 评论(0) 推荐(0)

2025年2月10日

摘要：（一）Seq2Seq概述 Seq2Seq（Sequence to Sequence，序列到序列模型）是一种循环神经网络的变种，包括编码器 (Encoder) 和解码器 (Decoder) 两部分，编码器和解码器通常使用RNN结构。 Seq2Seq模型是输出的长度不确定时采用的模型，这种情况一般是在阅读全文

posted @ 2025-02-10 15:38 wanghoney 阅读(476) 评论(0) 推荐(0)

2025年2月8日

Transformer模型

摘要：（一）Transformer模型架构 2017 年，Transformer模型使用Self-Attention结构取代了在NLP任务中常用的RNN网络结构。相比RNN网络结构，其最大的优点是可以并行计算。 Transformer的整体模型架构如图所示： Transformer模型架构（二）Tran 阅读全文

posted @ 2025-02-08 15:50 wanghoney 阅读(32) 评论(0) 推荐(0)

第一章 GPT-4o模型概述

摘要：介绍： GPT-4o是OpenAI推出的首个原生多模态模型，能够处理文本、视觉和音频输入，并生成相应的多模态输出。工作原理： 1）架构 GPT-4o采用多层变换器（Transformer）架构，基于注意力机制（Attention Mechanism）实现高效的语言处理。 2）端到端训练 GPT-4 阅读全文

posted @ 2025-02-08 15:16 wanghoney 阅读(573) 评论(0) 推荐(0)

2013年12月23日

Core Audio（三）

摘要：音频终端设备（Audio Endpoint Devices）endpoint device指的是应用程序的数据通道上起始或终止的硬件设备，如扬声器，耳机，话筒等；沿着数据通道可能穿越一定数目的硬件和软件组件，但它们往往是对用户不可见，用户更可能认为他们直接操作端点设备，而不是在端点设备插入的设配器等；下图将adapt device和endpoint device区分开来：以下是端点设备的示例：音箱麦克风辅助输入设备以下是适配器设备的示例：波输出设备（包括数字 - 模拟转换器）输出控制装置（包含音量和静音控制）波输入装置（包括模拟 - 数字转换器）输入控制设备（包括音... 阅读全文

posted @ 2013-12-23 11:55 wanghoney 阅读(614) 评论(0) 推荐(0)

2013年12月20日

Core Audio（二）

摘要：用户模式音频组件在windows vista中，core audio apis充当用户模式音频子系统的基础，core audio apis作为用户模式系统组件的一个thin layer，它用来将用户模型客户端和内核模式音频驱动以及音频硬件区分隔开；高级音频接口，像DirectSound和 windows 多媒体函数（waveOutXxx waveInXxx），都是通过core audio apis进入音频设备，见下图：core audio apis使用户对音频终端设备（audio endpoint device）保持友好，它用抽象概念用来代表一个用户可以直接操纵的物理设备，比如扬声器，头戴耳机阅读全文

posted @ 2013-12-20 11:31 wanghoney 阅读(1208) 评论(0) 推荐(0)

2013年12月19日

Core Audio（一）

摘要： Core Audio APIscore audio apis是vista之后引入的，不使用与之前的windows版本；core audio apis提供访问endpoint devices，比如耳机、麦克风等，它是higher-level audio APIs（比如directsound, waveXXX 函数）的基础。（一）Windows Core Audio APIs简介1.功能：（1）低延时，几乎无故障的音频流。（2）提高可靠性 ( 很多音频函数从核心态移到了用户态 )（3）提高了安全性（在安全的，低优先级别的线程处理被保护的音频内容）（4）分配了特定的系统级别的规则 (console 阅读全文

posted @ 2013-12-19 16:15 wanghoney 阅读(1337) 评论(0) 推荐(0)

2013年12月17日

windows 录音程序（二）

摘要：（二）录音流程WaveformAPIs,流程如下：a.打开录音设备waveInOpen;b.准备wave数据头waveInPrepareHeader;c.准备数据块waveInAddBuffer;d.开始录音waveInStart;e.停止录音(waveInStop);f.关闭录音设备(waveInClose);g.当开始录音后当buffer已满时,将收到MM_WIM_DATA消息,处理该消息可以保存已录好数据.注意：1.waveInPerpareHeader，此函数功能就是定位缓冲区的数据区地址和数据大小，以便为系统所用；2.当通过 waveInAddBuffer送入的缓冲区被录满后，Win 阅读全文

posted @ 2013-12-17 15:42 wanghoney 阅读(598) 评论(0) 推荐(0)

windows 录音程序（一）

摘要：（一）概述1.依赖条件：winmm.lib2.步骤：（1）打开设备 ----- waveInOpen（打开一个音频输入设备）；（2）开始录音 ----- waveInStart开始录音；（3）关闭设备 ----- waveInClose关闭录音（调用一下waveInReset，这样可以清掉尚在等待录音的缓冲区）；3.常用API：（1）waveInOpen：打开一个音频输入设备；（2）waveInPrepareHeader：为一个即将在waveInAddBuffer中调用的输入缓冲区准备头部；（3）waveInAddBuffer：添加一个输入用的数据缓冲区；（4）waveInStart：开始录音阅读全文

posted @ 2013-12-17 15:07 wanghoney 阅读(485) 评论(0) 推荐(0)

2013年12月2日

基于VC的ACM音频编程接口压缩Wave音频（三）

摘要：（三）音频数据的压缩下面说明使用 CODEC 实现音频压缩的过程；假设源信号为8K 采样、16bits PCM 编码、单声道、长度为1 秒的音频信号。驱动程序采用Windows 95 自带的TrueSpeech 音频CODEC，它能实现大约10：1 的压缩。在此例中，TrueSpeech CODEC 支持从源音频格式到目标格式的转换，而在实际应用中，可能某种CODEC 不支持直接将源音频格式转换成目阅读全文

posted @ 2013-12-02 14:47 wanghoney 阅读(554) 评论(0) 推荐(0)