摘要: CosyVoice多语言、音色和情感控制模型,one-shot零样本语音克隆模型本地部署(Win/Mac),通义实验室开源 近日,阿里通义实验室开源了CosyVoice语音模型,它支持自然语音生成,支持多语言、音色和情感控制,在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力方面表现卓越。 CosyVoice采用了总共超15万小时的数据训练,支持中英日粤韩5种语言的合成,合成效果显著优于传统语音合成模型。 C 阅读全文
posted @ 2024-07-07 18:33 刘悦的技术博客 阅读(1613) 评论(0) 推荐(1) 编辑
摘要: ChatTTS,语气韵律媲美真人的开源TTS模型,文字转语音界的新魁首,对标微软Azure-tts 前两天 2noise 团队开源了ChatTTS项目,并且释出了相关的音色模型权重,效果确实非常惊艳,让人一听难忘,即使摆在微软的商业级项目Azure-tts面前,也是毫不逊色的。 ChatTTS是专门为对话场景设计的文本转语音模型,例如大语言助手对话任务。它支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练。目前在huggingface中的开源版本为4万小时训练且未SFT的版本。 本次分享一下如何在本地部署ChatTTS项目。 阅读全文
posted @ 2024-05-31 17:05 刘悦的技术博客 阅读(3463) 评论(2) 推荐(3) 编辑
摘要: OpenVoiceV2本地部署教程,苹果MacOs部署流程,声音响度统一,文字转语音,TTS 最近OpenVoice项目更新了V2版本,新的模型对于中文推理更加友好,音色也得到了一定的提升,本次分享一下如何在苹果的MacOs系统中本地部署OpenVoice的V2版本。 首先下载OpenVoiceV2的压缩包: OpenVoiceV2-for-mac代码和模型 https://pan.quar 阅读全文
posted @ 2024-05-10 16:57 刘悦的技术博客 阅读(719) 评论(0) 推荐(1) 编辑
摘要: GPT-SoVITS教程,接入酒馆AI,SillyTavern-1.11.5,让AI女友声若幽兰 本次分享一下如何将GPT-SoVITS接入SillyTavern-1.11.5项目,让让AI女友声若幽兰,首先明确一下,SillyTavern-1.11.5只是一个前端项目,它没有任何大模型文本生成能力,所以后端必须有一个api服务来流式生成对话文本,这里选择koboldcpp。 首先看一下简单的项 阅读全文
posted @ 2024-03-26 14:02 刘悦的技术博客 阅读(1424) 评论(0) 推荐(1) 编辑
摘要: 苹果AppleMacOs系统Sonoma本地部署无内容审查(NSFW)大语言量化模型Causallm 最近Mac系统在运行大语言模型(LLMs)方面的性能已经得到了显著提升,尤其是随着苹果M系列芯片的不断迭代,本次我们在最新的MacOs系统Sonoma中本地部署无内容审查大语言量化模型Causallm。 这里推荐使用koboldcpp项目,它是由c++编写的kobold项目,而MacOS又是典型的U 阅读全文
posted @ 2024-03-09 13:02 刘悦的技术博客 阅读(423) 评论(0) 推荐(0) 编辑
摘要: 无所不谈,百无禁忌,Win11本地部署无内容审查中文大语言模型CausalLM-14B 目前流行的开源大语言模型大抵都会有内容审查机制,这并非是新鲜事,因为之前chat-gpt就曾经被“玩”坏过,如果没有内容审查,恶意用户可能通过精心设计的输入(prompt)来操纵LLM执行不当行为。内容审查可以帮助识别和过滤这些潜在的攻击,确保LLM按照既定的安全策略和道德标准运行。 但我们今天讨论 阅读全文
posted @ 2024-02-28 21:07 刘悦的技术博客 阅读(1386) 评论(1) 推荐(5) 编辑
摘要: 苹果AppleMacOs最新Sonoma系统本地训练和推理GPT-SoVITS模型实践 GPT-SoVITS是少有的可以在MacOs系统下训练和推理的TTS项目,虽然在效率上没有办法和N卡设备相提并论,但终归是开发者在MacOs系统构建基于M系列芯片AI生态的第一步。 环境搭建 首先要确保本地环境已经安装好版本大于6.1的FFMPEG软件: (base) ➜ ~ ffmpeg -ver 阅读全文
posted @ 2024-02-22 10:26 刘悦的技术博客 阅读(464) 评论(0) 推荐(0) 编辑
摘要: 自然语言开发AI应用,利用云雀大模型打造自己的专属AI机器人 如今,大模型层出不穷,这为自然语言处理、计算机视觉、语音识别和其他领域的人工智能任务带来了重大的突破和进展。大模型通常指那些参数量庞大、层数深、拥有巨大的计算能力和数据训练集的模型。 但不能不承认的是,普通人使用大模型还是有一定门槛的,首先大模型通常需要大量的计算资源才能进行训练和推理。这包括高性能 阅读全文
posted @ 2024-02-02 11:54 刘悦的技术博客 阅读(451) 评论(3) 推荐(0) 编辑
摘要: 离线生成双语字幕,一键生成中英双语字幕,基于AI大模型,ModelScope 制作双语字幕的方案网上有很多,林林总总,不一而足。制作双语字幕的原理也极其简单,无非就是人声背景音分离、语音转文字、文字翻译,最后就是字幕文件的合并,但美中不足之处这些环节中需要接口api的参与,比如翻译字幕,那么有没有一种彻底离线的解决方案?让普通人也能一键制作双语字幕,成就一个人的字幕组? 人声 阅读全文
posted @ 2024-01-29 10:46 刘悦的技术博客 阅读(884) 评论(1) 推荐(7) 编辑
摘要: Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10) 阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战,但实际上,Whisper的使用者完全可以针对中文的语音做一些优化的措施,换句话说,Whisper的“默认”形态可能在中文领域斗不过FunAsr,但是经过中文特殊优化的Whisper就未必了。 中文文本标注优化 Whisper经常被 阅读全文
posted @ 2024-01-25 14:22 刘悦的技术博客 阅读(1847) 评论(0) 推荐(2) 编辑