orin上部署LLM记录

模型下载:

下载LLAMA3.1,按照:https://blog.csdn.net/lanlinjnc/article/details/136709225

使用的模型:https://huggingface.co/shenzhi-wang/Llama3.1-8B-Chinese-Chat/tree/main

加载LLAMA3.1:直接使用无法执行,参考:https://blog.csdn.net/Hoooooooocc/article/details/136627124

使用langchain框架,参考:https://zhuanlan.zhihu.com/p/639565332 以及:https://zhuanlan.zhihu.com/p/642720235

Qwen下载也完全同上,下载路径:https://huggingface.co/Qwen/Qwen2.5-7B-Instruct/tree/main

疑问?Llama源码的用处:https://github.com/meta-llama/llama3

发现经过automodelforcasualLM加载的模型没法直接generate(str),然后看了:https://blog.csdn.net/yeshang_lady/article/details/140753520觉得可以尝试invoke,但是用该模型构造的llm_chain也不能直接invoke(str)
怀疑:是不是要构造pipeline? 参考:https://blog.csdn.net/u012856866/article/details/140497640 答:不是pipeline的构建,而是缺少embedding模块。因此借鉴了:https://blog.csdn.net/li1784506/article/details/132185962 通过tokenizer和model进行输出,但此时输出还是tensor。
如何使模型输出自然语言?parser
接下来可以参考:https://zhuanlan.zhihu.com/p/652172969 https://zhuanlan.zhihu.com/p/448852278

ollama

从下载模型开始,使用ollama进行部署

ollama参考:https://blog.csdn.net/asdfaa/article/details/137890849

ollama安装参考:https://blog.csdn.net/qq_46106285/article/details/137430941
模型转换参考 https://blog.csdn.net/arkohut/article/details/140087605
居然不用再手动合并! llama.cpp牛逼!
使用:https://blog.csdn.net/yyh2508298730/article/details/138288553 来更改ollama模型路径

不能直接使用这个安装方式:https://blog.csdn.net/qq_40999403/article/details/139320266

ollama用户登录:
`sudo chsh -s /bin/bash ollama
查看:grep ollama /etc/passwd

尝试按照:https://blog.csdn.net/sahye_plinnae/article/details/140207010
一开始没在service文件里设置 root 后来执行 成功!

注意:手动安装ollama

ollama是否支持在jeston平台上调用GPU?

手动安装ollama:https://blog.csdn.net/weixin_55513715/article/details/141333342

在3090集群上手动安装

https://github.com/ollama/ollama/blob/main/docs/linux.md

llama.cpp

在下载好并通过GPU编译(https://zhuanlan.zhihu.com/p/655365629)后可以运行大模型,但是接口对tools不知是否支持?

llama.cpp 更新(2024/12/3)后似乎不支持使用make编译了 请参考https://blog.csdn.net/lovely_yoshino/article/details/142912044

顺便把cmake更新一下:https://blog.csdn.net/whutshiliu/article/details/106480024

bitsandbytes

https://github.com/bitsandbytes-foundation/bitsandbytes
transformers加载模型 bitsandbytes pre0.43刚好版本还不支持 (https://github.com/bitsandbytes-foundation/bitsandbytes/issues/1093)

hub.pull提示词修改

更改chatprompttemplate,需要了解该数据类型的一些性质。经验:从底层了解起,认识到hub.pull的对象是一个Chatprompttemplate,然后查阅资料认识到可以通过索引得到内部数据。再认识SystemMessagePromptTemplate->_StringImageMessagePromptTemplate->BaseMessagePromptTemplate->prompttemplate

posted @ 2024-10-07 16:32  张扬zy  阅读(30)  评论(0编辑  收藏  举报