2024 年 1月随笔档案 - 刘悦的技术博客

摘要：

制作双语字幕的方案网上有很多，林林总总，不一而足。制作双语字幕的原理也极其简单，无非就是人声背景音分离、语音转文字、文字翻译，最后就是字幕文件的合并，但美中不足之处这些环节中需要接口api的参与，比如翻译字幕，那么有没有一种彻底离线的解决方案？让普通人也能一键制作双语字幕，成就一个人的字幕组？人声阅读全文

posted @ 2024-01-29 10:46 刘悦的技术博客阅读(1528) 评论(2) 推荐(7) 编辑

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

摘要：

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战，但实际上，Whisper的使用者完全可以针对中文的语音做一些优化的措施，换句话说，Whisper的“默认”形态可能在中文领域斗不过FunAsr，但是经过中文特殊优化的Whisper就未必了。中文文本标注优化 Whisper经常被阅读全文

posted @ 2024-01-25 14:22 刘悦的技术博客阅读(3634) 评论(0) 推荐(2) 编辑

龙蛇入笔,身不由己,码农出书以及无法控制的表达欲

摘要：

拙著《Tornado（龙卷风）编程实战》结集付梓，自惟庸陋，略為芹献，积年咳唾，不入方家，聊供诸君一哂。这本书以异步框架Tornado为基底，透过一个完整的项目阐释异步框架结合Vue.js如何实现一个低成本的前后端分离架构。项目内涉及的知识点涵括：Web3.0、数据库、设计模式落地、算法和数据结构阅读全文

posted @ 2024-01-22 12:31 刘悦的技术博客阅读(304) 评论(0) 推荐(6) 编辑

如何快速部署本地训练的 Bert-VITS2 语音模型到 Hugging Face

摘要：

Hugging Face是一个机器学习（ML）和数据科学平台和社区，帮助用户构建、部署和训练机器学习模型。它提供基础设施，用于在实时应用中演示、运行和部署人工智能（AI）。用户还可以浏览其他用户上传的模型和数据集。Hugging Face通常被称为机器学习界的GitHub，因为它让开发人员公开分享和阅读全文

posted @ 2024-01-15 09:17 刘悦的技术博客阅读(859) 评论(0) 推荐(1) 编辑

中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽

摘要：

君不言语音识别技术则已，言则必称Whisper，没错，OpenAi开源的Whisper确实是世界主流语音识别技术的魁首，但在中文领域，有一个足以和Whisper相颉顽的项目，那就是阿里达摩院自研的FunAsr。 FunAsr主要依托达摩院发布的Paraformer非自回归端到端语音识别模型，它具有高阅读全文

posted @ 2024-01-10 17:16 刘悦的技术博客阅读(4158) 评论(3) 推荐(5) 编辑

如何在GitHub正确提PR(Pull Requests),给喜欢的开源项目贡献代码

摘要：

最好的中文TTS项目Bert-vits2更新了中文特化分支，但可能由于时间仓促，代码中存在不少的bug，作为普通用户，有的时候也想为自己喜欢的开源项目做一点点贡献，帮助作者修改一些简单的bug，那么该如何开始？本次我们以Bert-vits2项目为例子，分享正确提交PR(Pull Requests) 阅读全文

posted @ 2024-01-07 12:30 刘悦的技术博客阅读(474) 评论(0) 推荐(1) 编辑

首次引入大模型!Bert-vits2-Extra中文特化版40秒素材复刻巫师3叶奈法

摘要：

Bert-vits2项目又更新了，更新了一个新的分支：中文特化，所谓中文特化，即针对中文音色的特殊优化版本，纯中文底模效果百尺竿头更进一步，同时首次引入了大模型，使用国产IDEA-CCNL/Erlangshen-MegatronBert-1.3B大模型作为Bert特征提取，基本上完全解决了发音的ba 阅读全文

posted @ 2024-01-06 23:04 刘悦的技术博客阅读(1479) 评论(1) 推荐(0) 编辑

字正腔圆,万国同音,coqui-ai TTS跨语种语音克隆,钢铁侠讲16国语言(Python3.10)

摘要：

按照固有的思维方式，如果想要语音克隆首先得有克隆对象具体的语言语音样本，换句话说，克隆对象必须说过某一种语言的话才行，但现在，coqui-ai TTS V2.0版本做到了，真正的跨语种无需训练的语音克隆技术。 coqui-ai TTS实现跨语种、无需训练克隆语音的方法是基于Tacotron模型，该模阅读全文

posted @ 2024-01-04 10:20 刘悦的技术博客阅读(2166) 评论(1) 推荐(1) 编辑

丝丝入扣,毫不违和,AI一键换脸和微调,基于Rope-Ruby,2024最新整合包

摘要：

AI换脸已经不是什么时新的技术了，从DeepFace到Facesweap，再到Roop。AI换脸技术中出现了一种名为“一键换脸”的方法，它不需要训练模型。这种方法利用了名为“GHOST”的技术，它是一种新的一键换脸方法，可以用于图像和视频领域。这种技术采用了先进的生成对抗网络（GAN）、自动编码器阅读全文

posted @ 2024-01-03 09:24 刘悦的技术博客阅读(1218) 评论(1) 推荐(3) 编辑

Win11环境Mecab日语分词和词性分析以及动态库DLL not found问题(Python3.10）

摘要：

日语因为存在假名，会导致翻译软件进行翻译时机翻味道过重的问题，比如積ん読（つんどく）这个词，大多数软件会翻译成：堆积的读，但其实是明明买了书却不读，光放着的意思。有时候也需要单独查句子中的单词释义来理解句子的意思，但一看下去全是假名，无法像中文或者英文那样进行简单的分词操作。本次我们基于Pytho 阅读全文

posted @ 2024-01-02 13:42 刘悦的技术博客阅读(371) 评论(0) 推荐(1) 编辑

刘悦的技术博客

01 2024 档案

公告

搜索

常用链接

我的标签

随笔档案

相册

阅读排行榜

评论排行榜

推荐排行榜

最新评论