StarCoder 2：GitHub Copilot本地开源LLM替代方案

GitHub CoPilot拥有超过130万付费用户，部署在5万多个组织中，是世界上部署最广泛的人工智能开发工具。使用LLM进行编程辅助工作不仅提高了生产力，而且正在永久性地改变数字原住民开发软件的方式，我也是它的付费用户之一。

低代码/无代码平台将使应用程序创建、工作流自动化和数据分析更加广泛的应用，这种变革潜力支撑着人们对开源替代方案的极大兴趣，我们今天将要介绍的这个令人兴奋的发展。最近BigCode与NVIDIA合作推出了StarCoder2，这是一系列专为编码而设计的开放式LLM，我认为在大小和性能方面是目前最好的开源LLM。

在本文中，我们将介绍StarCoder2的一些基本信息，然后建立一个本地环境，搭建StarCoder2-15B模型并用Python, JavaScript, SQL, c++和Java测试其编码能力。

StarCoder2简介

StarCoder2模型有三种不同大小可供选择，包括3B、7B和15B参数，并且支持广泛的编程语言。每个模型都是在The Stack v2上进行训练的，这是当前最广泛的用于LLM预训练的开源代码数据集。模型的主要特点如下：

3B（由ServiceNow提供）、7B（由Hugging Face提供）和15B参数版本（由NVIDIA使用NVIDIA NeMo）
所有模型使用分组查询注意力（Grouped Query Attention）
上下文窗口为16,384个标记，滑动窗口注意力为4,096个标记
模型是使用填空目标（Fill-in-the-Middle objective）进行训练的
训练时使用了3+ T（3B）、3.5+ T（7B）、4+ T（15B）标记以及600多种编程语言
StarCoder2–15B在StarCoder2模型中是最佳的，并在许多评估中与其他33B+模型相匹配。StarCoder2–3B的性能与StarCoder1–15B相当
训练时使用了1024 x H100 NVIDIA GPU
所有模型均具有商业友好的许可证

StarCoder2的能力（特别是15B模型）在性能指标中明显优于其他相同尺寸的模型，并且与CodeLlama-34B相匹配。

在具有16K标记的上下文长度下，模型处理广泛的代码库和指令，确保了全面的代码理解和生成能力。

https://avoid.overfit.cn/post/c6c8a0130c934a4da024ebdb8108ae8d

posted @ 2024-03-08 10:54 deephub 阅读(303) 评论(0) 收藏举报

刷新页面返回顶部

deephub

overfit深度学习

StarCoder 2：GitHub Copilot本地开源LLM替代方案

StarCoder2简介

公告