刘悦的技术博客

2024年12月8日

m4 mac mini本地部署ComfyUI,测试Flux-dev-GGUF的workflow模型10步出图,测试AI绘图性能,基于MPS(fp16),优点是能耗小和静音

摘要：

m4 mac mini已经发布了一段时间，针对这个产品，更多的是关于性价比的讨论，如果抛开各种补贴不论，价位上和以前发布的mini其实差别不大，真要论性价比，各种windows系统的mini主机的价格其实是吊打苹果的。本次我们针对m4 mac mini的AI性能做个测试，使用目前泛用性最广的AI工作流软件:ComfyUI框架，基于MPS(fp16)模式进行测试。阅读全文

posted @ 2024-12-08 23:34 刘悦的技术博客阅读(4350) 评论(0) 推荐(2)

2024年11月21日

MagicQuill,AI动态图像元素修改,AI绘图,需要40G的本地硬盘空间,12G显存可玩,Win11本地部署

摘要：

最近由 magic-quill 团队开源的 MagicQuill 项目十分引人瞩目，这个项目可以通过定制的 gradio 客户端针对不同的图像元素通过提示词进行修改，从而生成新的图像。值得一提的是，这个项目相当亲民，只需要20步迭代模型预测，甜品卡10秒钟就可以获取图片的修改效果，但是代价是至少需要阅读全文

posted @ 2024-11-21 20:32 刘悦的技术博客阅读(880) 评论(0) 推荐(0)

2024年10月28日

MaskGCT,AI语音克隆大模型本地部署(Windows11),基于Python3.11,TTS,文字转语音

摘要：

前几天，又一款非自回归的文字转语音的AI模型：MaskGCT，开放了源码，和同样非自回归的F5-TTS模型一样，MaskGCT模型也是基于10万小时数据集Emilia训练而来的，精通中英日韩法德6种语言的跨语种合成。数据集Emilia是全球最大且最为多样的高质量多语种语音数据集之一。本次分享一下如阅读全文

posted @ 2024-10-28 17:31 刘悦的技术博客阅读(4194) 评论(2) 推荐(0)

2024年9月28日

Win11本地部署FaceFusion3最强AI换脸,集成Tensorrt10.4推理加速,让甜品显卡也能发挥生产力

摘要：

FaceFusion3.0.0大抵是现在最强的AI换脸项目，分享一下如何在Win11系统，基于最新的cuda12.6配合最新的cudnn9.4本地部署FaceFusion3.0.0项目，并且搭配Tensorrt10.4，提高推理速度和效率，让甜品级显卡也能爆发生产力。安装最新版本Cuda12.6以阅读全文

posted @ 2024-09-28 10:25 刘悦的技术博客阅读(6203) 评论(0) 推荐(2)

2024年8月25日

Python3.11二进制AI项目程序打包为苹果Mac App(DMG)-应用程序pyinstaller制作流程(AppleSilicon)

摘要：

众所周知，苹果MacOs系统虽然贵为Unix内核系统，但由于系统不支持N卡，所以如果想在本地跑AI项目，还需要对相关的AI模块进行定制化操作，本次我们演示一下如何将基于Python3.11的AI项目程序打包为MacOS可以直接运行的DMG安装包，可以苹果系统中一键运行AI项目。 MacOs本地部署A 阅读全文

posted @ 2024-08-25 18:17 刘悦的技术博客阅读(725) 评论(0) 推荐(0)

2024年8月2日

Win11不在C盘安装WSL2(Linux环境),安装Nvidia驱动和默认使用Win11的网络代理服务

摘要：

众所周知，WSL 2 为 Windows 用户提供了一个强大、高效且灵活的 Linux 环境，特别适合开发者使用。它结合了 Windows 和 Linux 的优点，为用户提供了更加全面和高效的工作环境。但缺点也很明显，那就是默认安装在本来空间就不富裕的C盘。本次我们在非C盘的盘符快速安装基于wsl2的linux开发环境，并且无痛使用Win11的网络代理服务。阅读全文

posted @ 2024-08-02 17:27 刘悦的技术博客阅读(933) 评论(2) 推荐(3)

2024年7月7日

CosyVoice多语言、音色和情感控制模型，one-shot零样本语音克隆模型本地部署(Win/Mac),通义实验室开源

摘要：

近日，阿里通义实验室开源了CosyVoice语音模型，它支持自然语音生成，支持多语言、音色和情感控制，在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力方面表现卓越。 CosyVoice采用了总共超15万小时的数据训练，支持中英日粤韩5种语言的合成，合成效果显著优于传统语音合成模型。 C 阅读全文

posted @ 2024-07-07 18:33 刘悦的技术博客阅读(7221) 评论(1) 推荐(2)

2024年5月31日

ChatTTS,语气韵律媲美真人的开源TTS模型,文字转语音界的新魁首,对标微软Azure-tts

摘要：

前两天 2noise 团队开源了ChatTTS项目，并且释出了相关的音色模型权重，效果确实非常惊艳，让人一听难忘，即使摆在微软的商业级项目Azure-tts面前，也是毫不逊色的。 ChatTTS是专门为对话场景设计的文本转语音模型，例如大语言助手对话任务。它支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练。目前在huggingface中的开源版本为4万小时训练且未SFT的版本。本次分享一下如何在本地部署ChatTTS项目。阅读全文

posted @ 2024-05-31 17:05 刘悦的技术博客阅读(5008) 评论(2) 推荐(3)

2024年5月10日

OpenVoiceV2本地部署教程,苹果MacOs部署流程,声音响度统一,文字转语音,TTS

摘要：

最近OpenVoice项目更新了V2版本，新的模型对于中文推理更加友好，音色也得到了一定的提升，本次分享一下如何在苹果的MacOs系统中本地部署OpenVoice的V2版本。首先下载OpenVoiceV2的压缩包： OpenVoiceV2-for-mac代码和模型 https://pan.quar 阅读全文

posted @ 2024-05-10 16:57 刘悦的技术博客阅读(1946) 评论(0) 推荐(1)

2024年3月26日

GPT-SoVITS教程,接入酒馆AI,SillyTavern-1.11.5,让AI女友声若幽兰

摘要：

本次分享一下如何将GPT-SoVITS接入SillyTavern-1.11.5项目，让让AI女友声若幽兰，首先明确一下，SillyTavern-1.11.5只是一个前端项目，它没有任何大模型文本生成能力，所以后端必须有一个api服务来流式生成对话文本，这里选择koboldcpp。首先看一下简单的项阅读全文

posted @ 2024-03-26 14:02 刘悦的技术博客阅读(5130) 评论(0) 推荐(1)

刘悦的技术博客

公告