法律法规数据向量化

Posted on 2023-04-29 08:01 蝈蝈俊阅读(400) 评论(0) 编辑收藏举报

https://github.com/lvwzhen/law-cn-ai 把开源的中国法律法规数据（https://github.com/LawRefBook/Laws）向量化，然后接入ChatGPT，这样你就可以用自然语言对法律法规进行问答。下面是问答的效果：

对于一些复杂的案例场景，回答还是不行的。

要解决这类复杂的，建议接入更多案例，比如：中国裁判文书网等其它有足够多案例的。

如何接入向量数据库？

获得文本的向量表示是通过OpenAI的Embedding接口来转换的，获得向量数据后，再存储在向量数据库(pgvector)中。

为了方便后续的使用（每次回答只回答法律条文的一条），转换前，先拆分文章（page）到每一节（section）。

使用时，依此做下面两步后再返回结果：

我们用的 Embeddings 是 OpenAI 公司使用cl100k_base 词表编码所对应的 1536 维的向量，当 OpenAI 升级或者未来用其它公司接口时，同样一句话，生成的向量会不一样。

不用 ChatCompletion，我认为是基于下面几个考虑：

于是我们采用文本补全（Completion）接口。

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· OpenAI.Embedding 接口参数说明

阅读排行：
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码，我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· 白话解读 Dapr 1.15：你的「微服务管家」又秀新绝活了
· 记一次.NET内存居高不下排查解决与启示

历史上的今天：
2022-04-29 向量的点积
2011-04-29 Android到底那个Acitivity启动
2011-04-29 Android 任务共用性Affinity
2011-04-29 Android四种Activity的加载模式
2011-04-29 Android Application Task Activities的关系