2023 年 8月随笔档案 - 15375357604

大模型面试复习

摘要：1.MHQ和MQA MultiQuerySelfAttention： MHQ和MQA的不同之处仅仅在于每个头共享相同的K、V权重而Q不同享。 2.FlashAttention：核心是减少self-attention计算过程中对gpu存储单元HBM的访问，HBM的特点是存储大，但是访问速度慢，atte 阅读全文

posted @ 2023-08-24 22:29 15375357604 阅读(456) 评论(0) 推荐(0) 编辑

复习2

摘要：bert结构：BERT-Base, Uncased: 12-layer, 768-hidden, 12-heads, 110M parameters，词典大小：30522 embeding层： token embeding:30522*768，获取每个token的初始编码 position embe 阅读全文

posted @ 2023-08-23 14:53 15375357604 阅读(25) 评论(0) 推荐(0) 编辑

elasticsearch

摘要：最典型的是两个应用场景：全文检索和复杂查询。正排索引，也叫正向索引（Forward Index），是通过文档ID去查找关键词（文档内容）。倒排索引，也叫反向索引（Inverted Index），是通过关键词查找文档ID。 must：其查询子句必须全部被满足，逻辑相当于 and ，并且会计算分数阅读全文

posted @ 2023-08-22 15:24 15375357604 阅读(15) 评论(0) 推荐(0) 编辑

大模型基础组件 - Tokenizer

摘要：大模型分词阅读全文

posted @ 2023-08-22 14:02 15375357604 阅读(23) 评论(0) 推荐(0) 编辑

python 多线程

摘要：在python中，I/O密集型任务可以用多线程的方式来实现（threading库）；然而，对于计算密集型任务，由于python中全局锁GIL的存在，多线程并不能起到一个加速的作用。所以此时，一般使用多进程的方式实现（multiprocessing库）。多线程 threading：一个人有与异性聊阅读全文

posted @ 2023-08-22 10:58 15375357604 阅读(16) 评论(0) 推荐(0) 编辑

leetcode

摘要：# 最长回文子串 class Solution: def longestPalindrome(self, s: str) -> str: return self.manacher(s) @staticmethod def manacher(s: str) -> str: # 如果s是单字符的字符串，阅读全文

posted @ 2023-08-21 16:46 15375357604 阅读(6) 评论(0) 推荐(0) 编辑

docker

摘要：编写Dockerfile 将Dcokerfile文件置于项目根目录下，文件内容如下 FROM python:3.7 WORKDIR ./docker_demo ADD . . RUN pip install -r requirements.txt CMD ["python", "./src/main 阅读全文

posted @ 2023-08-21 14:12 15375357604 阅读(7) 评论(0) 推荐(0) 编辑

复习

摘要：推荐系统实践_马飞飞的博客-CSDN博客 isthegoal (fly) · GitHub 大模型面试八股 - 知乎 (zhihu.com) 大模型面试八股答案（一）——基础知识 - 知乎 (zhihu.com) GitHub - yangjianxin1/Firefly: Firefly(流萤): 阅读全文

posted @ 2023-08-18 11:23 15375357604 阅读(36) 评论(0) 推荐(0) 编辑

git

摘要：git 本地代码提交至远程master分支解决方法 git 提交代码，本地新建一个my分支，不从本地master分支直接上传，而是先从本地my分支上提交至本地master分支，然后本地master提交至远程master分支上。前提是远程只有一个master分支。第一步：首先到工程目录下。打开git 阅读全文

posted @ 2023-08-18 11:06 15375357604 阅读(19) 评论(0) 推荐(0) 编辑

softmax，logsumexp, softmax的上溢(overflow)或下溢

摘要：LSE:logsumexp 阅读全文

posted @ 2023-08-17 18:14 15375357604 阅读(36) 评论(0) 推荐(0) 编辑

transform和大模型训练相关

摘要：分析transformer模型的参数量、计算量、中间激活、KV cache - 知乎 (zhihu.com) 1.数据流程注：解码的过程会多一个Attention，先加掩码来避免解码获取当前word后的词数据的计算流程：embeding——》multi head attention——》Add& 阅读全文

posted @ 2023-08-08 16:32 15375357604 阅读(522) 评论(0) 推荐(0) 编辑

一次关于mybatis的bug解决

摘要：bug表现：网上的一些映射的对应关系我这边都排除了，实际的是创建级联文件夹时候要逐个去创建：比如com.xx.xx.xx，不能一次性创建，不然idea会把这个识别成一个文件夹，而不是级联的文件夹，编译的时候，mapper类和对应的mapper.xml就不会编译到一起，会报找不到的错误，判断方式:右阅读全文

posted @ 2023-08-07 10:32 15375357604 阅读(12) 评论(0) 推荐(0) 编辑

numpy，pandas，pytorch的一些基本函数

摘要：concatenate（vstack列方向和 hstack行方向） numpy.concatenate((a1, a2, ...), axis = 0) 其中： a1, a2,....: 待合并的数组 axis: 沿着数组合并的维度，默认为 0（对于二维数组来说，默认沿着行的方向进行合并）这里需阅读全文

posted @ 2023-08-03 11:04 15375357604 阅读(20) 评论(0) 推荐(0) 编辑

15375357604

08 2023 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜