刘悦的技术博客

2023年12月15日

摘要：

一代人有一代人的经典回忆，1994年由周海媚、马景涛、叶童主演的《神雕侠侣》曾经风靡一时，周海媚所诠释的周芷若凝聚了汉水之钟灵，峨嵋之毓秀，遇雪尤清，经霜更艳，俘获万千观众，成为了一代人的共同记忆。如今美人仙去，回望经典，雪肤依然，花貌如昨，白璧微瑕之处是九十年代电视剧的分辨率有些低，本次我们利用阅读全文

posted @ 2023-12-15 10:21 刘悦的技术博客阅读(1431) 评论(3) 推荐(7)

2023年12月8日

Bert-vits2新版本V2.1英文模型本地训练以及中英文混合推理(mix)

摘要：

中英文混合输出是文本转语音(TTS)项目中很常见的需求场景，尤其在技术文章或者技术视频领域里，其中文文本中一定会夹杂着海量的英文单词，我们当然不希望AI口播只会念中文，Bert-vits2老版本(2.0以下版本)并不支持英文训练和推理，但更新了底模之后，V2.0以上版本支持了中英文混合推理(mix) 阅读全文

posted @ 2023-12-08 14:06 刘悦的技术博客阅读(1486) 评论(0) 推荐(3)

2023年11月29日

义无反顾马督工,Bert-vits2V210复刻马督工实践(Python3.10)

摘要：

Bert-vits2更新了版本V210，修正了日/英的bert对齐问题，效果进一步优化；对底模使用的数据进行优化和加量，减少finetune失败以及电音的可能性；日语bert更换了模型，完善了多语言推理。阅读全文

posted @ 2023-11-29 10:47 刘悦的技术博客阅读(1026) 评论(4) 推荐(6)

2023年11月27日

本地训练,立等可取,30秒音频素材复刻霉霉讲中文音色基于Bert-VITS2V2.0.2

摘要：

之前我们使用Bert-VITS2V2.0.2版本对现有的原神数据集进行了本地训练，但如果克隆对象脱离了原神角色，我们就需要自己构建数据集了，事实上，深度学习模型的性能和泛化能力都依托于所使用的数据集的质量和多样性，本次我们在本地利用Bert-VITS2V2.0.2对霉霉讲中文的音色进行克隆实践。霉阅读全文

posted @ 2023-11-27 11:36 刘悦的技术博客阅读(1089) 评论(0) 推荐(4)

2023年11月22日

本地训练,开箱可用,Bert-VITS2 V2.0.2版本本地基于现有数据集训练(原神刻晴)

摘要：

按照固有思维方式，深度学习的训练环节应该在云端，毕竟本地硬件条件有限。但事实上，在语音识别和自然语言处理层面，即使相对较少的数据量也可以训练出高性能的模型，对于预算有限的同学们来说，也没必要花冤枉钱上“云端”了，本次我们来演示如何在本地训练Bert-VITS2 V2.0.2模型。阅读全文

posted @ 2023-11-22 15:42 刘悦的技术博客阅读(2291) 评论(3) 推荐(6)

2023年11月20日

又欲又撩人,基于新版Bert-vits2V2.0.2音色模型雷电将军八重神子一键推理整合包分享

摘要：

Bert-vits2项目近期炸裂更新，放出了v2.0.2版本的代码，修正了存在于2.0先前版本的重大bug，并且重炼了底模，本次更新是即1.1.1版本后最重大的更新，支持了三语言训练及混合合成，并且做到向下兼容，可以推理老版本的模型，本次我们基于新版V2.0.2来本地推理原神小姐姐们的音色模型。具阅读全文

posted @ 2023-11-20 11:26 刘悦的技术博客阅读(2220) 评论(2) 推荐(7)

2023年11月16日

一键整合,万用万灵,Python3.10项目嵌入式一键整合包的制作(Embed)

摘要：

我们知道Python是一门解释型语言，项目运行时需要依赖Python解释器，并且有时候需要安装项目中对应的三方依赖库。对于专业的Python开发者来说，可以直接通过pip命令进行安装即可。但是如果是分发给其他的Windows用户，特别是不熟悉Python的人来说，这样过于繁琐。因此最好的办法是连同Python解释器和Python项目打包在一起，通过嵌入式一键整合包解决项目的分发问题。本次我们以[一键扒谱的项目](https://v3u.cn/a_id_327)为例子，演示如何将项目直接打包为一键整合包，方便其他用户运行使用。阅读全文

posted @ 2023-11-16 18:15 刘悦的技术博客阅读(1786) 评论(2) 推荐(3)

2023年11月15日

不懂乐理,也能扒谱,基于openvpi将mp3转换为midi乐谱(Python3.10)

摘要：

所谓"扒谱"是指通过听歌或观看演奏视频等方式，逐步分析和还原音乐作品的曲谱或乐谱的过程。它是音乐学习和演奏的一种常见方法，通常由音乐爱好者、乐手或学生使用。在扒谱的过程中，人们会仔细聆听音乐作品，辨别和记录出各个音符、和弦、节奏等元素，并通过试错和反复推敲来逐渐还原出准确的曲谱或乐谱。这对于那些没阅读全文

posted @ 2023-11-15 16:16 刘悦的技术博客阅读(2105) 评论(6) 推荐(3)

2023年11月14日

AI歌姬,C位出道,基于PaddleHub/Diffsinger实现音频歌声合成操作(Python3.10)

摘要：

懂乐理的音乐专业人士可以通过写乐谱并通过乐器演奏来展示他们的音乐创意和构思，但不识谱的素人如果也想跨界玩儿音乐，那么门槛儿就有点高了。但随着人工智能技术的快速迭代，现在任何一个人都可以成为“创作型歌手”，即自主创作并且让AI进行演唱，极大地降低了音乐制作的门槛。本次我们基于PaddleHub和Di 阅读全文

posted @ 2023-11-14 15:05 刘悦的技术博客阅读(1174) 评论(0) 推荐(2)

2023年11月3日

持续进化，快速转录，Faster-Whisper对视频进行双语字幕转录实践(Python3.10)

摘要：

Faster-Whisper是Whisper开源后的第三方进化版本，它对原始的 Whisper 模型结构进行了改进和优化。这包括减少模型的层数、减少参数量、简化模型结构等，从而减少了计算量和内存消耗，提高了推理速度，与此同时，Faster-Whisper也改进了推理算法、优化计算过程、减少冗余计算等，用以提高模型的运行效率。本次我们利用Faster-Whisper对日语视频进行双语(日语/国语)转录实践，看看效率如何。阅读全文

posted @ 2023-11-03 14:15 刘悦的技术博客阅读(7285) 评论(0) 推荐(5)

刘悦的技术博客

公告