你好大语言模型

你好大语言模型

使用 Google Colab 首次涉足 Bloom

作为我的硕士课程 Capstone 项目的一部分,我将探索如何实现大型语言模型 (LLM)。我确信这种探索会产生许多博客文章,但对于初学者来说,我只想试一试,看看它在高水平上是如何工作的。

对于初学者来说,LLM 是一种自然语言处理 (NLP) 机器学习模型,通常(并且目前仅是)使用称为转换器的深度学习方法构建。 (“不仅仅是满足 i!”对不起……)在以后的帖子中,我可能会尝试具体分解什么是变压器以及它是如何工作的,但现在,知道它是一种大型、复杂的神经网络方法,能够产生极其复杂的基于语言的机器学习模型已经足够好了。你在新闻中读到的有人声称人工智能已经获得感知的东西?那是法学硕士。您阅读的有关机器学习模型的其他内容 绘制可笑事物的逼真图像 (比如“一只戴着滑雪面罩的狗在液体棉花糖上驾驶船”或任何你能想到的怪事)——这也由法学硕士提供支持。

NAILED IT! #craiyon

虽然有许多 LLM 可用于学术/研究/创造性地消磨时间,但其中大多数仅在商业上可供创建它们的公司使用。由于我的最终目标是开发一个可以在没有许可限制的情况下进行商业部署(稍后会详细介绍)的应用程序框架,因此这大大缩小了我可以选择的 LLM 的数量。结果,我从 盛开 ,一个开源的法学硕士。

开始时,我想建立一个快速的操场来踢轮胎,并且这样做的方式可以很容易地复制我的踢轮胎过程。为此,我转向 谷歌公司 .这是一个免费环境(适用于资源匮乏的用户,但可以包括 GPU!),外观和感觉很像 iPython / Jupyter Notebooks,但可以轻松与 Google Workspace Drive 和 GitHub 集成。

选择了编码环境后,我搜索了有关如何安装和使用 BLOOM 的说明,结果遇到了 本教程 .我发现(并报告了)我认为是说明中的几个错误,但总的来说,这对于入门的核心基础非常有帮助。我松散地遵循了程序,并在几分钟内启动并运行了 BLOOM。 (完全披露:达到这一点的实际时间要长得多,但如果你只是复制我的过程,你应该在不到 10 到 15 分钟内启动并运行,很容易。)你可以看到我做了什么 这里 , 并且实际上直接访问笔记本本身 这个链接 .

几点注意事项:

  • 免费的 Colab 环境资源有限,这是可以理解的,当我尝试加载它时,13 亿参数模型使内核崩溃。因此,我切换到 3.5 亿参数模型,用于测试目的,它很好,很容易适应可用资源。
  • 默认情况下未安装 transformers 软件包,因此您会在我安装它的地方看到一个已注释掉的单元格。如果您是第一次在自己的 Colab 环境中运行此代码,您将希望在没有注释的情况下运行该代码行。

否则,这非常简单。我能够定义一个提示,即作为响应返回的单词数,然后对模型使用几种不同的方法来预测接下来会发生什么。很整洁的东西!而只是开始……

I feel you Beam Search. I feel you.

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/1606/48473006

posted @ 2022-08-30 06:50  哈哈哈来了啊啊啊  阅读(247)  评论(0编辑  收藏  举报