03 2024 档案

摘要:转载请注明出处:https://www.cnblogs.com/zhiyong-ITNote SSE:Server Sent Event;服务器发送事件。 Server-Sent Events(SSE)是一种由服务器向客户端推送实时数据的技术。它是构建基于事件的、服务器到客户端的通信的一种方法,特别 阅读全文
posted @ 2024-03-27 19:46 又见阿郎 阅读(711) 评论(1) 推荐(0) 编辑
摘要:转载请注明出处:https://www.cnblogs.com/zhiyong-ITNote 多模态:文本、音频、视频、图像等多形态的展现形式。 目前部门内业务要求领域大模型需要是多模态——支持音频/文本。从个人思考的角度来审视下,审视下多模态大模型的实现方式。 首先就要区分输入与输出,即输入的模态 阅读全文
posted @ 2024-03-26 17:08 又见阿郎 阅读(508) 评论(0) 推荐(0) 编辑
摘要:转载请注明住处:https://www.cnblogs.com/zhiyong-ITNote 概述 ShareGPT格式的数据集中,一般是如下格式: [ { "conversations": [ { "from": "human", "value": "I saw a dress that I li 阅读全文
posted @ 2024-03-25 09:59 又见阿郎 阅读(3001) 评论(0) 推荐(0) 编辑
摘要:转载请注明出处:https://www.cnblogs.com/zhiyong-ITNote 近来,工作偏向于心理医疗领域方面的大模型,仅从领域大模型的落地,聊聊个人的一些思考。 硬件 准备好花钱买GPU。 领域大模型 业务场景的思考 首先需要审视斟酌业务领域的特殊性与可行性,我们要做的是心理领域, 阅读全文
posted @ 2024-03-20 21:36 又见阿郎 阅读(450) 评论(0) 推荐(1) 编辑
摘要:转载请注明出处:https://www.cnblogs.com/zhiyong-ITNote 参考现有的中文医疗模型:MedicalGPT、CareGPT等领域模型的训练流程,结合ChatGPT的训练流程,总结如下: 在预训练阶段,模型会从大量无标注文本数据集中学习领域/通用知识;其次使用{有监督微 阅读全文
posted @ 2024-03-18 16:16 又见阿郎 阅读(2095) 评论(2) 推荐(1) 编辑
摘要:转载请注明出处: https://www.cnblogs.com/zhiyong-ITNote/ 参考了多个医疗大模型,如扁鹊、灵心等,重新思考了下微调的方案以及数据集的格式;基于ChatGLM/其它LLM整合多种微调方法的非官方实现的框架,审视其数据集格式,以及调试效果,进行微调。 最终基于liu 阅读全文
posted @ 2024-03-16 09:50 又见阿郎 阅读(942) 评论(2) 推荐(1) 编辑
摘要:转载请备注出处: https://www.cnblogs.com/zhiyong-ITNote 微调框架概述 模型的微调有多种方式,对于入门的来说,一般都是基于官方的文档微调;最近发现很多开源库,其目的就是支持应用多种微调策略来微调模型,简化模型的微调门槛。比如 ChatGLM-Efficient- 阅读全文
posted @ 2024-03-15 14:12 又见阿郎 阅读(737) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示