[数据分析] Text-to-SQL/BI GPT发展现状
1 概述 : Text-to-SQL / Chat BI / BI-GPT
- Text2SQL 产品的主流技术: LLM + RAG(几十万+的SQL对)
LLM 生成SQL的精确度如何?
Demo
Demo
demo
训练数据集 : SQL问答对
- 用户确认果的、回答正确的Text-to-SQL案例,默认加入训练数据集,并自动进行学习
这些问答对,也支持删除
原理
- 基础大模型: Qwen 等
提升SQL准确率是否需要LLM模型微调?
-
开源模型: sqlcoder-7b-2 (基于 codellama-7)
开源训练数据 NSText2SQL
https://github.com/NumbersStationAI/NSQL
https://huggingface.co/datasets/NumbersStation/NSText2SQL
Lora 监督微调
可以将MYSQL官方的用户手册,作为微调数据集之一。
SQL Glot : 开源的 SQL 解析器、转译器、优化器和引擎 | 支持21种数据库,实现数据库之间SQL自动转换
- Intro
SQLGlot 是一个无依赖的 SQL 解析器、转译器、优化器和引擎。
它可用于格式化 SQL 或在 24 种不同的方言之间进行转换,如 DuckDB、Presto / Trino、Spark / Databricks、Snowflake 和 BigQuery。
它旨在读取各种 SQL 输入,并在目标方言中输出语法和语义正确的 SQL。
它是一个非常全面的通用 SQL 解析器,具有强大的测试套件。它的性能也相当高,同时完全是用 Python 编写的。
您可以轻松自定义解析器、分析查询、遍历表达式树以及以编程方式构建 SQL。
- URL
2 Power BI + Copilot
- 特点
DAX 语言
- URL
3 观远数据 × Azure OpenAI(ChatGPT/Azure Open AI)
- 推荐文献
4 Chat2DB : 1.6k fork / 14.4k star 【推荐】
- 核心功能
- 全链路数据管理平台
Chat2DB是集数据管理、研发、分析和应用于一体的全链路平台,无论您的数据存储在哪里,Chat2DB都能无缝对接。- AI驱动的智能SQL研发
Chat2DB的SQL研发,彻底改变了我们与数据的互动方式。通过先进的AI技术,使得每位用户都能轻松驾驭SQL。- AI驱动的智能报表
Chat2DB不仅能精准分析需求,还能深度挖掘洞察数据,并以最直观的报表形式呈现,使得决策更加快速、精准。- AI驱动的数据探索
Chat2DB通过AI数据对话页面,使不同角色的用户可以轻松与数据进行互动,无需深入了解背后的数据源管理和技术细节。
此外,chat2DB还提供了它的7B开源模型:
GitHub: https://github.com/chat2db/Chat2DB-GLM
Huggingface: https://huggingface.co/Chat2DB/Chat2DB-SQL-7B
Modelscope: https://modelscope.cn/models/Chat2DB/Chat2DB-SQL-7B
- 部署模式
- C/S模式
- URL
5 Deep BI/Deep Insight : 295 fork / 1.8k star
- URL
6 DB-GPT : 1.7k fork / 12.7k star 【推荐】
[Text2SQL/AI/GPT/AWEL/RAG] DB-GPT : 开源的 AI 原生数据应用程序开发框架(MIT) - 博客园/千千寰宇
- Intro
DB-GPT 是一个专注于数据库领域的大模型框架,支持 Text2SQL 效果优化、RAG 框架和多代理协作。
它旨在简化数据库与大模型应用的结合
- 特点:
- 支持多模型管理和微调。
- 提供 RAG 框架和 Multi-Agents 协作。
- 适用于复杂数据库查询场景。
- URL
- https://github.com/eosphoros-ai/DB-GPT
- https://docs.dbgpt.site/docs/overview
- https://openi.pcl.ac.cn/zhouhui/DB-GPT/src/branch/main/README.md
- 第三方文档
7 Lang Chain 的 SQL Agent
8 Vanna AI 【推荐】
Vanna 是一个基于 Python 的开源框架,利用检索增强生成(RAG)技术生成 SQL 查询。
它通过训练模型理解数据库结构和上下文,支持用户通过自然语言提问生成 SQL 查询。
- 特点:
- 支持本地部署和数据隐私保护。
- 提供 SQL 查询的自动生成和执行。
- 可集成到 Streamlit 等工具中实现可视化。
9 SQLChat : 429 fork / 4.9k star
- URL
10 SuperSonic : 586 fork / 3.1k star | TencentMusic
- Intro
SuperSonic
is the next-generation AI+BI platform that unifies Chat BI (powered by LLM) and Headless BI (powered by semantic layer) paradigms.
超音数是下一代AI+BI平台,它统一了Chat BI(由LLM提供支持)和Headless BI(由语义层提供支持)范式。
-
主要编程语言: Java / TypeScript / ...
-
URL
11 Dataherald : 244 fork / 3.4 star
- 简介
Dataherald 是一个自然语言到 SQL 引擎,专为企业级问答设计。它允许用户通过简单的对话从数据库中获取结果,支持 API 集成和 Slackbot6。
- 特点:
- 支持从数据仓库中获取结果。
- 提供模块化设计和扩展性。
- 适用于 SaaS 应用程序。
- URL
https://github.com/Dataherald/dataherald
https://dataherald.readthedocs.io/en/latest/
Y 推荐文献
这是一个精选的 Text2SQL 资源库,包含大量与 LLM、Text2SQL 相关的教程、代码和数据集,适合研究和开发人员使用
提供丰富的模型和数据集链接,涵盖 Text2SQL、Text2DSL、Text2API 等领域。
X 参考文献

本文链接: https://www.cnblogs.com/johnnyzen
关于博文:评论和私信会在第一时间回复,或直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
日常交流:大数据与软件开发-QQ交流群: 774386015 【入群二维码】参见左下角。您的支持、鼓励是博主技术写作的重要动力!