08 2023 档案
摘要:1.MHQ和MQA MultiQuerySelfAttention: MHQ和MQA的不同之处仅仅在于每个头共享相同的K、V权重而Q不同享。 2.FlashAttention:核心是减少self-attention计算过程中对gpu存储单元HBM的访问,HBM的特点是存储大,但是访问速度慢,atte
阅读全文
摘要:bert结构:BERT-Base, Uncased: 12-layer, 768-hidden, 12-heads, 110M parameters,词典大小:30522 embeding层: token embeding:30522*768,获取每个token的初始编码 position embe
阅读全文
摘要:最典型的是两个应用场景:全文检索 和 复杂查询。 正排索引,也叫正向索引(Forward Index),是通过文档ID去查找关键词(文档内容)。倒排索引,也叫反向索引(Inverted Index),是通过关键词查找文档ID。 must:其查询子句必须全部被满足,逻辑相当于 and ,并且会计算分数
阅读全文
摘要:在python中,I/O密集型任务可以用多线程的方式来实现(threading库);然而,对于计算密集型任务,由于python中全局锁GIL的存在,多线程并不能起到一个加速的作用。所以此时,一般使用多进程的方式实现(multiprocessing库)。 多线程 threading: 一个人有与异性聊
阅读全文
摘要:# 最长回文子串 class Solution: def longestPalindrome(self, s: str) -> str: return self.manacher(s) @staticmethod def manacher(s: str) -> str: # 如果s是单字符的字符串,
阅读全文
摘要:编写Dockerfile 将Dcokerfile文件置于项目根目录下,文件内容如下 FROM python:3.7 WORKDIR ./docker_demo ADD . . RUN pip install -r requirements.txt CMD ["python", "./src/main
阅读全文
摘要:推荐系统实践_马飞飞的博客-CSDN博客 isthegoal (fly) · GitHub 大模型面试八股 - 知乎 (zhihu.com) 大模型面试八股答案(一)——基础知识 - 知乎 (zhihu.com) GitHub - yangjianxin1/Firefly: Firefly(流萤):
阅读全文
摘要:git 本地代码提交至远程master分支解决方法 git 提交代码,本地新建一个my分支,不从本地master分支直接上传,而是先从本地my分支上提交至本地master分支,然后本地master提交至远程master分支上。前提是远程只有一个master分支。第一步:首先到工程目录下。打开git
阅读全文
摘要:LSE:logsumexp
阅读全文
摘要:分析transformer模型的参数量、计算量、中间激活、KV cache - 知乎 (zhihu.com) 1.数据流程 注:解码的过程会多一个Attention,先加掩码来避免解码获取当前word后的词 数据的计算流程:embeding——》multi head attention——》Add&
阅读全文
摘要:bug表现: 网上的一些映射的对应关系我这边都排除了,实际的是创建级联文件夹时候要逐个去创建:比如com.xx.xx.xx,不能一次性创建,不然idea会把这个识别成一个文件夹,而不是级联的文件夹,编译的时候,mapper类和对应的mapper.xml就不会编译到一起,会报找不到的错误,判断方式:右
阅读全文
摘要:concatenate(vstack列方向 和 hstack行方向) numpy.concatenate((a1, a2, ...), axis = 0) 其中: a1, a2,....: 待合并的数组 axis: 沿着数组合并的维度,默认为 0(对于二维数组来说,默认沿着行的方向进行合并) 这里需
阅读全文