[数据分析] Text-to-SQL/BI GPT发展现状

1 概述 : Text-to-SQL / Chat BI / BI-GPT

  • Text2SQL 产品的主流技术: LLM + RAG(几十万+的SQL对)

LLM 生成SQL的精确度如何?

Demo

Demo

demo

训练数据集 : SQL问答对

  • 用户确认果的、回答正确的Text-to-SQL案例,默认加入训练数据集,并自动进行学习

这些问答对,也支持删除

原理

  • 基础大模型: Qwen 等

提升SQL准确率是否需要LLM模型微调?

开源训练数据 NSText2SQL

https://github.com/NumbersStationAI/NSQL
https://huggingface.co/datasets/NumbersStation/NSText2SQL

Lora 监督微调

可以将MYSQL官方的用户手册,作为微调数据集之一。

SQL Glot : 开源的 SQL 解析器、转译器、优化器和引擎 | 支持21种数据库,实现数据库之间SQL自动转换

  • Intro

SQLGlot 是一个无依赖的 SQL 解析器、转译器、优化器和引擎。
它可用于格式化 SQL 或在 24 种不同的方言之间进行转换,如 DuckDB、Presto / Trino、Spark / Databricks、Snowflake 和 BigQuery。
它旨在读取各种 SQL 输入,并在目标方言中输出语法和语义正确的 SQL。
它是一个非常全面的通用 SQL 解析器,具有强大的测试套件。它的性能也相当高,同时完全是用 Python 编写的。
您可以轻松自定义解析器、分析查询、遍历表达式树以及以编程方式构建 SQL。

  • URL

2 Power BI + Copilot

  • 特点

DAX 语言

  • URL

3 观远数据 × Azure OpenAI(ChatGPT/Azure Open AI)

  • 推荐文献

4 Chat2DB : 1.6k fork / 14.4k star 【推荐】

  • 核心功能
  • 全链路数据管理平台
    Chat2DB是集数据管理、研发、分析和应用于一体的全链路平台,无论您的数据存储在哪里,Chat2DB都能无缝对接。
  • AI驱动的智能SQL研发
    Chat2DB的SQL研发,彻底改变了我们与数据的互动方式。通过先进的AI技术,使得每位用户都能轻松驾驭SQL。
  • AI驱动的智能报表
    Chat2DB不仅能精准分析需求,还能深度挖掘洞察数据,并以最直观的报表形式呈现,使得决策更加快速、精准。
  • AI驱动的数据探索
    Chat2DB通过AI数据对话页面,使不同角色的用户可以轻松与数据进行互动,无需深入了解背后的数据源管理和技术细节。

此外,chat2DB还提供了它的7B开源模型:

GitHub: https://github.com/chat2db/Chat2DB-GLM
Huggingface: https://huggingface.co/Chat2DB/Chat2DB-SQL-7B
Modelscope: https://modelscope.cn/models/Chat2DB/Chat2DB-SQL-7B

  • 部署模式
  • C/S模式
  • URL

5 Deep BI/Deep Insight : 295 fork / 1.8k star

  • URL

6 DB-GPT : 1.7k fork / 12.7k star 【推荐】

[Text2SQL/AI/GPT/AWEL/RAG] DB-GPT : 开源的 AI 原生数据应用程序开发框架(MIT) - 博客园/千千寰宇

  • Intro

DB-GPT 是一个专注于数据库领域的大模型框架,支持 Text2SQL 效果优化、RAG 框架和多代理协作。
它旨在简化数据库与大模型应用的结合

  • 特点:
  • 支持多模型管理和微调。
  • 提供 RAG 框架和 Multi-Agents 协作。
  • 适用于复杂数据库查询场景。

  • URL

7 Lang Chain 的 SQL Agent

8 Vanna AI 【推荐】

Vanna 是一个基于 Python 的开源框架,利用检索增强生成(RAG)技术生成 SQL 查询。
它通过训练模型理解数据库结构和上下文,支持用户通过自然语言提问生成 SQL 查询。

  • 特点:
  • 支持本地部署和数据隐私保护。
  • 提供 SQL 查询的自动生成和执行。
  • 可集成到 Streamlit 等工具中实现可视化。

9 SQLChat : 429 fork / 4.9k star

  • URL

10 SuperSonic : 586 fork / 3.1k star | TencentMusic

  • Intro

SuperSonic is the next-generation AI+BI platform that unifies Chat BI (powered by LLM) and Headless BI (powered by semantic layer) paradigms.
超音数是下一代AI+BI平台,它统一了Chat BI(由LLM提供支持)和Headless BI(由语义层提供支持)范式。

  • 主要编程语言: Java / TypeScript / ...

  • URL

https://github.com/tencentmusic/supersonic

11 Dataherald : 244 fork / 3.4 star

  • 简介

Dataherald 是一个自然语言到 SQL 引擎,专为企业级问答设计。它允许用户通过简单的对话从数据库中获取结果,支持 API 集成和 Slackbot6。

  • 特点:
  • 支持从数据仓库中获取结果。
  • 提供模块化设计和扩展性。
  • 适用于 SaaS 应用程序。
  • URL

https://github.com/Dataherald/dataherald
https://dataherald.readthedocs.io/en/latest/

Y 推荐文献

这是一个精选的 Text2SQL 资源库,包含大量与 LLM、Text2SQL 相关的教程、代码和数据集,适合研究和开发人员使用
提供丰富的模型和数据集链接,涵盖 Text2SQL、Text2DSL、Text2API 等领域。

X 参考文献

posted @ 2025-03-08 22:27  千千寰宇  阅读(12)  评论(0)    收藏  举报