上一页 1 ··· 4 5 6 7 8 9 10 11 12 13 下一页
  2023年9月24日
摘要: 以前使用Neo4j图数据库,考虑到生产环境需要最终选择了NebulaGraph图数据库。对于数据要求比较高的领域,比如医疗、财务等,暂时还是离不开知识图谱的。后面主要围绕LLM+KG做一些行业解决方案和产品,涉及的技术主要是对话、推荐、检索这3个大的方向,可用于客服系统和聊天机器人等。 1.安装Ne 阅读全文
posted @ 2023-09-24 20:51 扫地升 阅读(338) 评论(0) 推荐(0) 编辑
摘要: 图数据库是专门存储庞大的图形网络并从中检索信息的数据库。它可以将图中的数据高效存储为点(Vertex)和边(Edge),还可以将属性(Property)附加到点和边上。本文以示例数据集basketballplayer为例,通过nGQL操作和Python脚本两种方式构建图谱。数据[10]和代码[9]详 阅读全文
posted @ 2023-09-24 20:51 扫地升 阅读(210) 评论(0) 推荐(0) 编辑
摘要: Llama2-Chinese项目给出pretrain的data为QA数据格式,可能会有疑问pretrain不应该是Text数据格式吗?而在Chinese-LLaMA-Alpaca-2和open-llama2预训练使用的LoRA技术,给出pretrain的data为Text数据格式。所以推测应该pre 阅读全文
posted @ 2023-09-24 20:43 扫地升 阅读(1126) 评论(0) 推荐(1) 编辑
  2023年9月18日
摘要: 语义増强可编程图谱框架:新一代知识图谱语义框架/引擎、SPG+LLM双驱架构及应用相关进展和应用。《语义增强可编程知识图谱SPG》白皮书 v1.0.pdf: https://url39.ctfile.com/f/2501739-941002398-f8f1f0?p=2096 (访问密码: 2096) 阅读全文
posted @ 2023-09-18 22:45 扫地升 阅读(155) 评论(0) 推荐(0) 编辑
摘要: 一.数据集描述 1.数据集摘要 该数据集包含与心理健康相关的问题和答案的对话对,以单一文本形式呈现。数据集是从流行的医疗博客(如WebMD、Mayo Clinic和HealthLine)、在线常见问题等来源精选而来的。所有问题和答案都经过匿名化处理,以删除任何个人身份信息(PII),并经过预处理以删 阅读全文
posted @ 2023-09-18 22:42 扫地升 阅读(230) 评论(0) 推荐(0) 编辑
摘要: 文本是参考文献[1]的中文翻译,主要讲解了Falcon-7B大型语言模型在心理健康对话数据集上使用QLoRA进行微调的过程。项目GitHub链接为https://github.com/iamarunbrahma/finetuned-qlora-falcon7b-medical,如下所示: 使用领域适 阅读全文
posted @ 2023-09-18 22:38 扫地升 阅读(426) 评论(0) 推荐(0) 编辑
摘要: TorchLens:可用于可视化任何PyTorch模型,一个包用于在一行代码中提取和映射PyTorch模型中每个张量运算的结果。TorchLens功能非常强大,如果能够熟练掌握,算是可视化PyTorch模型的一把利剑。本文通过TorchLens可视化一个简单神经网络,算是抛砖引玉吧。 一.定义一个简 阅读全文
posted @ 2023-09-18 00:07 扫地升 阅读(394) 评论(0) 推荐(1) 编辑
  2023年9月16日
摘要: 因为原生LLaMA对中文的支持很弱,一个中文汉子往往被切分成多个token,因此需要对其进行中文词表扩展。思路通常是在中文语料库上训练一个中文tokenizer模型,然后将中文tokenizer与LLaMA原生tokenizer进行合并,最终得到一个扩展后的tokenizer模型。国内Chinese 阅读全文
posted @ 2023-09-16 22:32 扫地升 阅读(1795) 评论(0) 推荐(0) 编辑
摘要: 虽然Llama2的预训练数据相对于第一代LLaMA扩大了一倍,但是中文预训练数据的比例依然非常少,仅占0.13%,这也导致了原始Llama2的中文能力较弱。为了能够提升模型的中文能力,可以采用微调和预训练两种路径,其中: 微调需要的算力资源少,能够快速实现一个中文Llama的雏形。但缺点也显而易见, 阅读全文
posted @ 2023-09-16 22:31 扫地升 阅读(1781) 评论(0) 推荐(3) 编辑
  2023年9月13日
摘要: 一.Protege简介、用途和特点 1.Protege简介 Protege是斯坦福大学医学院生物信息研究中心基于Java开发的本体编辑和本体开发工具,也是基于知识的编辑器,属于开放源代码软件。这个软件主要用于语义网中本体的构建,是语义网中本体构建的核心开发工具,下面操作使用版本为5.5.0。 2.P 阅读全文
posted @ 2023-09-13 23:27 扫地升 阅读(715) 评论(0) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 11 12 13 下一页