Falcon 180B 目前最强大的开源模型
Technology Innovation Institute最近发布了Falcon 180B大型语言模型(LLM),它击败了Llama-2 70b,与谷歌Bard的基础模型PaLM-2 Large不相上下。
180B是是Falcon 40B模型一个最新版本。以下是该模型的快速概述:
180B参数模型,两个版本(base和chat)
使用RefinedWeb数据集训练3.5万亿个令牌
上下文最大为2048令牌
它大约是ChatGPT (GPT-3.5)的大小,它有175B个参数。它是最好的吗?截至2023年9月,Falcon 180B在hug Face的模型排行榜上排名第一。
模型变体
Falcon 180B有两个版本——基础版和聊天版。
基础版是一个因果解码器模型。这个模型非常适合对自己的数据进行进一步微调。
聊天版chat与基础版本类似,这也是一个1800亿个参数的因果解码器模型。但是它对Ultrachat5、Platypus6和airboros7指令(聊天)数据集进行了微调。
模型表现
就它的能力而言,Falcon 180B与PaLM-2 Large并肩而立,使其成为最强大的公开可用语言模型之一。
量化的Falcon模型在基准测试中保持了类似的指标。
https://avoid.overfit.cn/post/14268c27f72a4c9d994e9acfbcae25b0
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· 如何使用 Uni-app 实现视频聊天(源码,支持安卓、iOS)
· C# 集成 DeepSeek 模型实现 AI 私有化(本地部署与 API 调用教程)
2022-09-12 论文推荐:当自监督遇到主动学习