Llama 3.1 70B推理功能快速体验
一、模型简介
Meta Llama 3.1 系列是一个多语言大型语言模型 (LLM) 集合,包括 8B、70B 和 405B 三种尺寸(文本输入/文本输出)。Llama 3.1 的指令调优版本(8B、70B、405B)针对多语言对话用例进行了优化,并在常见的行业基准测试中超越了许多现有的开源和闭源聊天模型。
Llama 3.1 支持多种语言,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。它在多语言任务中表现出色,并具有增强的推理、数学和代码执行能力。这使其适用于从文本生成到更具体任务(如数学问题解决和代码辅助)的广泛应用。
二、模型架构
Llama 3.1 是一个自回归语言模型,采用了优化的 Transformer 架构。调优版本使用监督式微调(SFT)和基于人类反馈的强化学习(RLHF)来调整模型以更加符合人类对有效性和安全性的偏好。
三、模型性能
Llama 3.1 经过了超过 150 个基准数据集的性能测试,Meta比较了它与其他模型在现实情况中的表现。结果显示,405B 模型在包括 GPT-4、GPT-4o 和 Claude 3.5 Sonnet 在内的一系列任务中与领先的基础模型具有竞争力。此外,较小模型在与具有相似参数数量的封闭和开放模型的比较中也表现出色。'
四、部署实践
本文是Llama3.1-70B-Instruct的聊天部署教程,实践平台是趋动云:https://account.virtaicloud.com/gemini_web/auth/login
4.1启动项目
登录趋动云后,在项目界面(登录后自动跳转)左上角,找到“社区”选项,单击后进入社区首页:
在社区首页中,在界面上部选择“项目”,找到名为“Meta新开源【Llama3.1-70B-Instruct】聊天部署教程”的项目
进入Meta新开源【Llama3.1-70B-Instruct】聊天部署教程项目界面后,点击右上角的“运行一下”
之后跳出的2选项默认都点确定
等待克隆完成:
推荐的GPU默认点确定(立即运行):
4.2运行项目:
等待环境启动成功后,启动开发环境。开发环境启动成功后,双击打开页面左侧的项目简介:
下面操作可以参考Jupyter Notebook里的教程。
4.3使用swift webui 进行聊天对话
切换到终端,
输入下面的指令:
swift web-ui --host 0.0.0.0
运行完毕,出现下图所示的结果,点击右侧“端口”,再点击“添加端口”,注意不要直接点击划线出的链接,直接点点不开
在添加端口界面,“内部端口”输入7860,是上一张图划线链接最后4位数字,“使用用途”随便输点,第1栏默认为“TCP”
之后复制生成的连接,打开:
4.4 部署、使用模型
点击“llama部署”,“选择模型”默认为“训练后的模型”,模型地址输入“/gemini/code/swift/examples/pytorch/llm/output/llama3_1-70b-instruct/v0-20240805-164838/checkpoint-500”,选择GPU推荐把0、1、2、3都选上,切记不要选CPU
之后点击部署模型,再点击“展示部署状态”可查看部署进展
训练完毕
之后就可以在下面的“请输入”一栏中输入内容,再点击发送就可以开始聊天了,注意该模型是没有处理图片功能的,因此上传图片对话不可行。
4.5 Transformers推理
该部分是独立于前3步的,无需上述步骤也可使用,直接运行2.2Transformers推理的代码框,即可输出推理结果(不建议使用,耗时长,大约25——30分钟,而且回答不准确)
若想反复体验推理的话,建议把message后面的代码剪切到下一单元格内,这样在运行完第1次推理后,后续只需运行message所在的代码框即可输出结果
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· PowerShell开发游戏 · 打蜜蜂
· 在鹅厂做java开发是什么体验
· 百万级群聊的设计实践
· WPF到Web的无缝过渡:英雄联盟客户端的OpenSilver迁移实战
· 永远不要相信用户的输入:从 SQL 注入攻防看输入验证的重要性