案例5-法律知识图谱
1|0转自:https://liuhuanyong.github.io/ 刘焕勇,中国科学院软件研究所
2|0CrimeKgAssitant
Crime assistant including crime type prediction and crime consult service based on nlp methods and crime kg,罪名法务智能项目,内容包括856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对的13类问题分类与法律资讯问答功能.
3|0项目功能
目前知识图谱在各个行业中应用逐步打开,尤其在金融,医疗,法律,旅游方面.知识图谱助力法律智能,能够在一定程度上利用现有大数据以及机器学习/深度学习与自然语言处理技术,提供一些智能的解决方案.本项目将完成两个大方向的工作: 1, 以罪名为核心,收集相关数据,建成基本的罪名知识图谱,法务资讯对话知识库,案由量刑知识库. 2, 分别基于步骤1的结果,完成以下四个方面的工作:
-
基于案由量刑知识库的罪名预测模型
-
基于法务咨询对话知识库的法务问题类型分类
-
基于法务咨询对话知识库的法务问题自动问答服务
-
基于罪行知识图谱的知识查询
4|0罪名预测
1, 问题类型: 罪名一共包括202种罪名,文件放在dict/crime.txt中, 详细内容举例如下:
2, 问题模型: 罪刑数据库一共有288万条训练数据,要做的是202类型的罪名多分类问题.本项目采用的方式为:
训练数据规模 | 数据向量表示 | 模型 | 训练时长 | 准确率 |
---|---|---|---|---|
20W | doc embedding | svm | 0.5h | 0.83352184 |
288W | doc embedding | svm | 12h | 0.9203119 |
3, 效果: 执行 python crime_classify.py
5|0法务咨询问题分类
1, 问题类型: 法务资讯问题一共包括13类,详细内容如下:
2, 问题模型: 法务咨询数据库一共有20万条训练数据,要做的是13类型咨询问题多分类问题.本项目采用的方式为:
训练数据规模 | 测试集规模 | 模型 | 训练时长 | 训练集准确率 | 测试集准确率 |
---|---|---|---|---|---|
4W | 1W | CNN | 15*20s | 0.984 | 0.959 |
4W | 1W | LSTM | 51*20s | 0.838 | 0.717 |
3, 效果: 执行 python question_classify.py
6|0法务咨询自动问答
运行 python crime_qa.py
7|0总结
1, 本项目实现的是以罪刑为核心的法务应用落地的一个demo尝试. 2, 本项目采用机器学习,深度学习的方法完成了罪名预测,客服问句类型预测多分类任务,取得了较好的性能,模型可以直接使用. 3, 本项目构建起了一个20万问答集,856个罪名的知识库,分别存放在data/kg_crime.json和data/qa_corpus.json文件中. 4, 法务问答,可以是智能客服在法律资讯网站中的一个应用场景落地. 本项目采用的是ES+语义相似度加权打分策略实现的问答技术路线, 权值计算与阈值设定可以用户指定. 5, 对于罪名知识图谱中的知识可以进一步进行结构化处理,这是后期可以完善的地方. 6, 如何将罪名,咨询,智能研判结合在一起,形成通路,其实可以进一步提升知识图谱在法务领域的应用.
8|0contact
如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,请联系我: 邮箱:lhy_in_blcu@126.com csdn:https://blog.csdn.net/lhy2014 我的自然语言处理项目: https://liuhuanyong.github.io/
__EOF__

本文链接:https://www.cnblogs.com/lx06/p/15688427.html
关于博主:评论和私信会在第一时间回复。或者直接私信我。
版权声明:本博客转载请注明出处!
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角【推荐】一下。您的鼓励是博主的最大动力!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
· AI与.NET技术实操系列(六):基于图像分类模型对图像进行分类
2021-06-02 6.2号课下作业测试标准的好坏