摘要:对于diffusion的原始论文的理解 参考,https://www.bilibili.com/video/BV18a4y1T75X/?p=2&spm_id_from=pageDriver&vd_source=1eb6e5015a1f70daa97080d8ee786d5d https://www.
阅读全文
摘要:https://blog.langchain.dev/llms-and-sql/ LLM生成SQL很容易 解决的问题是如果让LLM生成的SQL,是valid并且结果正确的 模拟人是如何写SQL的,本身人也是要上下文的, 那么问题就是需要什么上下文,并且如何组织 比较直觉的是,给出schema和几条真
阅读全文
摘要:https://github.com/imClumsyPanda/langchain-ChatGLM 1. 确定显卡规格 lspci | grep -i nvidia 00:07.0 3D controller: NVIDIA Corporation GV100GL [Tesla V100 SXM2
阅读全文
摘要:学习如何学习 其实就是学习模型本身,模型的超参数 定义一个function,输入是一堆训练任务,输出是一个模型,这个和传统的机器学习没有本质不同 所以也是分成三步, 定义学什么,和相应的学习模型,meta learning本身也是有meta的。。。。。。 定义loss函数 用优化算法求解,但是这个L
阅读全文
摘要:Self-supervised是LeCun提出的,将unsupervised learning的一部分称为Self-supervisor 常用于NLP,一段文字分成两部分,用第一部分来预测第二部分 自监督学习的模型名,大都来自芝麻街的角色 BERT有两种训练的方式, 第一种是Masking Inpu
阅读全文
摘要:首先这里解决的问题是Seq2Seq 列出各种场景,语音识别,机器翻译,chatbot 当前现在NLP模型之所以这么重要,在于他的通用能力,很多场景都可以转换成Seq2Seq summary,情感分析啊,只要你能通过QA和机器交互的场景都可以是Seq2Seq 这里的例子,语法树解析,多元分类,甚至是对
阅读全文
摘要:面对的问题是什么? 复杂输入,多个变长的向量 这里自然会想到RNN,后面会有比较 具体的场景, 可以是一段话,每个word一个向量,可以用one hot,但大多时候是用embedding 可以是一段印频,每25ms一个向量,按10ms滑动,可以看出音频的数据量是非常大的 也可以是一张图片。。。 输出
阅读全文
摘要:无论GPT展现出何种强大的能力,其本质的技术都是, 一个用于语言接龙的function,这个function非常大,有几千亿个参数,所以成为语言模型,或大模型 GPT是什么意思, 对于传统的机器学习都是监督学习,需要大量人类准备的资料,有限的资料就导致很难产生很好的模型 但对于语言模型,天然优势是他
阅读全文
摘要:当用GPT失败的时候应该怎么办? 更好的prompt finetune 模型不行,let it be When GPT-3 fails on a task, what should you do? Search for a better prompt that elicits more reliab
阅读全文
摘要:https://github.com/openai/openai-cookbook Embedding是什么意思就不说了 基于大模型的Embedding本身是包含比文本更多的内涵的,因为包含了大量的相关性 但Embedding怎么用,基本逻辑是文本相似性 所以Semantic search是最简单的
阅读全文
摘要:和原例子不一样,我没有用API,直接用的chatgpt3.5 如何形成比较好的UT prompt,要分步骤,这里分成三步,我是把每一步copy到chatgpt,然后把结果贴回来 Complex tasks, such as writing unit tests, can benefit from m
阅读全文
摘要:https://openai.com/product https://github.com/openai/openai-cookbook openapi使用示例 https://docs.midjourney.com/docs/quick-start 根据英文图片生成 gpt不知道2022年后的事情
阅读全文