2025 年 3月随笔档案 - HaibaraYuki

备份1

摘要：在这篇文章中我将使用LangGraph在Gemini API之上定义一个基于状态图名为BaristaBot的模拟咖啡馆点餐系统应用程序，它将为顾客提供一个循环的聊天界面，他们可以使用自然语言订购咖啡饮品，并且您将构建节点来表示咖啡馆的实时菜单和"后厨"点餐系统。BaristaBot用于其他Gemin 阅读全文

posted @ 2025-03-09 21:04 HaibaraYuki 阅读(5) 评论(0) 推荐(0) 编辑

叫嚣若是代码能力够好->2025CVPR代码复现

摘要：dd 阅读全文

posted @ 2025-03-09 19:56 HaibaraYuki 阅读(3) 评论(0) 推荐(0) 编辑

编辑内容快捷键

摘要：Ctrl + / 实现编辑内容全局化再点一个实时预览美滋滋阅读全文

posted @ 2025-03-09 19:55 HaibaraYuki 阅读(4) 评论(0) 推荐(0) 编辑

Hyperspectral Image Classification Summarize

摘要：[24/11/14] A Comprehensive Survey for Hyperspectral Image Classification: The Evolution from Conventional to Transformers and Mamba ModelsPDF [22] QAH 阅读全文

posted @ 2025-03-09 19:38 HaibaraYuki 阅读(6) 评论(0) 推荐(0) 编辑

高光谱图像——丁晨组论文

摘要：Integrating Prototype Learning With Graph Convolution Network for Effective Active Hyperspectral Image Classification期刊情况 Hyperspectral Image Classifi 阅读全文

posted @ 2025-03-09 19:37 HaibaraYuki 阅读(6) 评论(0) 推荐(0) 编辑

Bias的作用

摘要：多层感知机中的偏置（bias）项可以看作是每个神经元的一个可训练的常数项，主要区别在于：不使用偏置时，每个神经元的输出仅由输入和权重的线性组合决定，输出形式为 y = Wx。当激活函数为线性函数（或无激活函数）时，这相当于所有决策边界必须过原点，限制了网络的表达能力。使用偏置后，输出形式为 y 阅读全文

posted @ 2025-03-06 22:24 HaibaraYuki 阅读(9) 评论(0) 推荐(0) 编辑

Multi-Heads Attention参数量计算

摘要：单头与多头注意力结构如下： Q，K，V是输入的三个句子词向量

d_{m o d e l} = 768

h=12,12个头由下图知

d_{k} = d_{v} = d_{m o d e l} / h 64

最后把12个头concat后又进行线性变换,用到参数

W_{o} (768 * 768)

Self Attenti 阅读全文

posted @ 2025-03-06 22:11 HaibaraYuki 阅读(12) 评论(0) 推荐(0) 编辑

LayerNorm层参数量计算

摘要：有

\gemma

和

β

等两个参数三个地方用到了LayerNorm层 Embedding层后

768 * 2

Multi-Head Attention后

(768 * 2) * 12

Feed-Forward后

(768 * 2) * 12

故，12层LayerNorm层参数阅读全文

posted @ 2025-03-06 21:57 HaibaraYuki 阅读(5) 评论(0) 推荐(0) 编辑

前馈网络(Feed Forword)的参数量计算

摘要：Feed Forward(前馈网络)参数量计算主要由2个全连接层组成，论文中全连接层的公式如下:

F F N (X) = m a x (0, x W 1 + b 1) W 2 + b 2

其中用到的两个参数W1和W2，已知

B E R T_{B A S E} 的 设 置 为 d_{m o d e l} = 768

，BERT沿用了惯用的全连接层大小设阅读全文

posted @ 2025-03-06 21:24 HaibaraYuki 阅读(9) 评论(0) 推荐(0) 编辑

Positional Embedding

摘要：在原始的 Transformer 模型中，位置嵌入是由正弦和余弦函数组成的，这样设计的原因在于它具有周期性，可以帮助模型处理比训练时更长的序列，同时保持一定的泛化能力。阅读全文

posted @ 2025-03-06 20:34 HaibaraYuki 阅读(7) 评论(0) 推荐(0) 编辑

BERT词向量参数量计算_BASE

摘要：Embedding(词向量参数)计算: 前置条件词汇量大小 vocab_size=30522 文本输入最长大小 max_position_embeddings=512 句子类型(标记上下文) BERT用了2个句子，为0和1 token_type_embeddings=2 隐藏层 hidden_si 阅读全文

posted @ 2025-03-06 19:46 HaibaraYuki 阅读(10) 评论(0) 推荐(0) 编辑

Bidirectional 双向编码器

摘要：13.1.BERT公认的里程碑 BERT 的意义在于：从大量无标记数据集中训练得到的深度模型，可以显著提高各项自然语言处理任务的准确率。近年来优秀预训练语言模型的集大成者：参考了 ELMO 模型的双向编码思想、借鉴了 GPT 用 Transformer 作为特征提取器的思路、采用了 word 阅读全文

posted @ 2025-03-06 11:10 HaibaraYuki 阅读(29) 评论(0) 推荐(0) 编辑

监控GPU使用情况,三种形式

摘要：(https://zhuanlan.zhihu.com/p/577533593)[三种方式] 阅读全文

posted @ 2025-03-02 20:33 HaibaraYuki 阅读(78) 评论(0) 推荐(0) 编辑

vscode中同时运行两个python文件（不用安装插件）

摘要：代码的向下中的运行箭头的下拉选项中：在专用终端中运行Python文件阅读全文

posted @ 2025-03-02 20:32 HaibaraYuki 阅读(8) 评论(0) 推荐(0) 编辑