建立企业内部(或项目)自由gpt知识库的研究v0.1
建立企业内部(或项目)自由gpt知识库的研究v0.1
本文档概述:基于之前提出的项目中可能要自建类gpt知识库的解决方案进行相关性研究和测试整理文档
https://github.com/zhayujie/chatgpt-on-wechat
根据开源框架进行部署调试
git clone https://github.com/zhayujie/chatgpt-on-wechat
cd chatgpt-on-wechat/
安装相关依赖
pip3 install -r requirements.txt
可选
pip3 install -r requirements-optional.txt
可选
pip3 install azure-cognitiveservices-speech
配置
cp config-template.json config.json
启动运行
touch nohup.out # 首次运行需要新建日志文件
nohup python3 app.py & tail -f nohup.out # 在后台运行程序并通过日志输出二维码

进行扫码,使扫码微信作为gpt机器人入口使用
开启clash
[root@iZbp15w0ph797zjucisc82Z clash-for-linux]# sh start.sh
CPU architecture: x86_64
正在检测订阅地址...
Clash订阅地址可访问! [ OK ]
正在下载Clash配置文件...
配置文件config.yaml下载成功! [ OK ]
判断订阅内容是否符合clash配置文件标准:
解码后的内容不符合clash标准,尝试将其转换为标准格式
配置文件已成功转换成clash标准格式
正在启动Clash服务...
服务启动成功! [ OK ]
Clash Dashboard 访问地址: http://<ip>:9090/ui
Secret: 1ded9722100be88737498aea32b47fc2d912859accde1f503728a61ea870f008
请执行以下命令加载环境变量: source /etc/profile.d/clash.sh
请执行以下命令开启系统代理: proxy_on
若要临时关闭系统代理,请执行: proxy_off
初步结论:与最终针对性(针对性行业)的私有知识库建立还有一些区别,需要使用如
对于文本语义相似度的计算,通常可以通过以下几种方法来实现:
-
基于词袋模型(Bag of Words,BoW)或TF-IDF模型:这些是最基础的方法,它们将文本转换为向量,然后计算向量之间的余弦相似度。但是,这些方法无法捕获词序和语义信息。
-
基于词向量(Word Embeddings):这是一种更先进的方法,如Word2Vec, GloVe等,它们可以将词语转化为高维空间中的向量,从而能够捕获词语间的语义信息。通过计算词向量的平均值,可以得到整个句子的向量表示,然后计算向量间的余弦相似度。
-
基于预训练语言模型(Pre-trained Language Models):如BERT, RoBERTa, GPT等,这些模型能够在句子级别上获取丰富的上下文信息,从而更好地理解语义信息。
-
基于Siamese网络或对比损失(Contrastive Loss)的深度学习模型:这些模型被训练来明确地优化句子或文档的相似性度量。
对于工具和中间件,以下是一些可能的选择:
-
NLTK 和 Spacy:这是两个非常流行的自然语言处理库,它们提供了词袋模型和TF-IDF等基础模型的实现。
-
Gensim:这是一个专门用于主题建模和文档相似度的库,它提供了Word2Vec, Doc2Vec, TF-IDF等模型的实现。
-
Scikit-learn:这是一个广泛使用的机器学习库,它包含了许多特征提取和相似度计算的工具。
-
Hugging Face's Transformers:这是一个包含了BERT, GPT, RoBERTa等预训练语言模型的库。
-
Sentence Transformers:这是一个基于Hugging Face's Transformers开发的库,专门用于计算句子级别的语义相似度。
-
Faiss:这是Facebook开发的一个库,用于高效地进行大规模向量相似度搜索。
-
Elasticsearch:这是一个分布式的搜索和分析引擎,它可以用于存储文档和查询相似文档。
具体的选择应根据你的具体需求和场景来确定。
作者:ukyo--碳水化合物
出处:https://www.cnblogs.com/ukzq/p/17800055.html
版权:本作品采用「署名-非商业性使用-相同方式共享 4.0 国际」许可协议进行许可。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!
2021-10-31 一位google的up主,讲述自己非CS专业并且28岁开始做前端开发的历程
2021-10-31 多日面试,常问到的问题-分布式相关的处理
2021-10-31 带你玩转stackOverFlow-2
2019-10-31 架构师必备 -- 如何画好架构图