Text To Speech（文本转语音）

项目简介#

项目中有一部分需要将文本文字进行语音播放，但在网络上查询了很多，发现很多都要注册或者压根就不能用。

这时，我考虑自己写一个文本语音播报软件，既可以根据自定义化，还能提高编码水平。

项目实现#

由于使用Windows 10系统，官方语音库肯定是最适配的。库文件包括：#include "sapi.h" and #include "sphelper.h"

除了函数库，还需要准备参数输入库文件和本地语音token

参数输入库使用 getopt.h (从Linux移植至Windows)

windows默认本地语音token一般有如下2个，注册表搜索：HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Speech\Voices\Tokens

自定义功能：

调节朗读音量
调节朗读速率
指定朗读文本
指定朗读循环次数
帮助信息

text_to_speech.cpp 部分内容，详细请查看github

#include "windows.h"
#include <string>
#include <iostream>
#include "getopt.h"
#include "sapi.h"
#include "sphelper.h"
#pragma comment(lib, "sapi.lib")

using namespace std;

int main(int argc, char *argv[])
{
	int rc = 0;
	VOICE_OPTS voice_opts;
	memset(&voice_opts, 0, sizeof(VOICE_OPTS));
	/* VOICE_OPTS 变量初始化 */
	lib_tts_opt_init(&voice_opts);
	/* 命令行参数读取 */
	static struct option long_options[] = {
	{"help",    0, 0,  '?'},
	{"volume",  1, 0,  'v'},
	{"rate",    1, 0,  'r'},
	{"forTime", 1, 0,  'f'},
	{"text",    1, 0,  't'},
	{0 , 0, 0, 0}
	};
	if ((rc = lib_tts_opts_get(argc, argv, long_options, &voice_opts)) != 0)
	{
		return -1;
	}
	
	const char *str = voice_opts.text;
	wchar_t *p_wchar = char_to_wchar(str);

	::CoInitialize(NULL); // COM初始化
	CLSID CLSID_SpVoice;
	CLSIDFromProgID(L"SAPI.SpVoice", &CLSID_SpVoice);
	ISpVoice *pSpVoice = NULL;
	IEnumSpObjectTokens *pSpEnumTokens = NULL;

	// 获取ISpVoice接口
	if (FAILED(CoCreateInstance(CLSID_SpVoice, NULL, CLSCTX_INPROC_SERVER, IID_ISpVoice, (void**)&pSpVoice)))
	{
		cout << "error:获取ISpVoice接口失败" << endl;
		return -1;
	}
	/* 调节朗读音量 */
	pSpVoice->SetVolume(voice_opts.volume);
	/* 调节朗读速度 */
	pSpVoice->SetRate(voice_opts.rate);
	/* 设置同步朗读超时事件，单位：ms */
	pSpVoice->SetSyncSpeakTimeout(5000);

	// 列举所有的语音token，可以通过pSpEnumTokens指向的接口得到
	if (SUCCEEDED(SpEnumTokens(SPCAT_VOICES, NULL, NULL, &pSpEnumTokens)))
	{
		ULONG count = 0;
		pSpEnumTokens->GetCount(&count);
		// 判断本地语音token数量是否至少有1个
		if (count >= 1)
		{
			ISpObjectToken *pSpToken = NULL;
			pSpEnumTokens->Item(0, &pSpToken);
			pSpVoice->SetVoice(pSpToken); // 设置当前语音token为pSpToken
			for (int i = 0; i < voice_opts.forTime; i++)
				pSpVoice->Speak((LPCWSTR)p_wchar, SPF_DEFAULT, NULL); // 朗读中文和英文的混合字符串
			pSpToken->Release(); // 释放token
		}
		pSpEnumTokens->Release();        // 释放pSpEnumTokens接口
	}

	delete[] p_wchar;
	pSpVoice->Release();
	::CoUninitialize();

	return 0;
}

扩展#

除了上述编写代码实现方式外，这还有另外一种比较简单的实现 xxx.vbs 脚本

speak_test.vbs

CreateObject("SAPI.SpVoice").Speak"语音播放测试"

在Windows 10上测试，可以正常播放。

参考引用#

忘记了 getopt.h 的来源

作者：caojun97

出处：https://www.cnblogs.com/caojun97/p/17545063.html

版权：本作品采用「署名-非商业性使用-相同方式共享 4.0 国际」许可协议进行许可。

posted @ 2023-08-02 11:18 eiSouthBoy 阅读(363) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· MPV的进阶使用：JSON IPC

· VSCode插件：用于生成文件头部注释和函数注释的插件

· TextToSpeech

· 使用Windows TTS API从文本生成语音

· C# 微软Speech文字转语音TTS

阅读排行：
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码，我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· 白话解读 Dapr 1.15：你的「微服务管家」又秀新绝活了
· 上周热点回顾（2.24-3.2）

公告

昵称： eiSouthBoy
园龄： 2年11个月
粉丝： 9
关注： 46

+加关注

2025年3月

日

一

二

三

四

五

六

Loading

eiSouthBoy's Blog

Text To Speech（文本转语音）

项目简介#

项目实现#

扩展#

参考引用#

公告

合集 (5)

随笔分类 (262)

随笔档案 (255)

最新评论