使用vosk模型进行语音识别

import wave
import sys
import json

from vosk import Model, KaldiRecognizer, SetLogLevel

# You can set log level to -1 to disable debug messages
SetLogLevel(-1)

wf = wave.open(sys.argv[1], "rb")
if wf.getnchannels() != 1 or wf.getsampwidth() != 2 or wf.getcomptype() != "NONE":
    print("Audio file must be WAV format mono PCM.")

    sys.exit(1)

# model = Model(lang="en-us")
# You can also init model by name or with a folder path
# model = Model(model_name="vosk-model-en-us-0.21")
# 设置模型所在路径，刚刚4.1中解压出来的路径   《《《《
# model = Model("model") 
model = Model("../Downloads/vosk-model-small-cn-0.22")

rec = KaldiRecognizer(model, wf.getframerate())
rec.SetWords(True)
# rec.SetPartialWords(True)   # 注释这行   《《《《

str_ret = ""

while True:
    data = wf.readframes(4000)
    if len(data) == 0:
        break
    if rec.AcceptWaveform(data):
        result = rec.Result()
        # print(result)

        result = json.loads(result)
        if 'text' in result:
            str_ret += result['text'] + ' '
    # else:
    #     print(rec.PartialResult())

result = json.loads(rec.FinalResult())
if 'text' in result:
    str_ret += result['text']

print(str_ret)

wf.close()

评估vosk模型的词错率，响应时间和吞吐量

import os
import subprocess
import wave
import sys
import json
from vosk import Model, KaldiRecognizer, SetLogLevel
import difflib
import time

def get_edit_distance(str1, str2) -> int:
    """
    计算两个串的编辑距离，支持str和list类型
    str1和str2是列表，列表元素是要比的字符串，计算对应位置字符串的编辑距离
    """
    leven_cost = 0
    # print(f'--str1-str2-{str1}-{str2}')
    for s1,s2 in zip(str1,str2):
        sequence_match = difflib.SequenceMatcher(None, s1, s2)
        for tag, index_1, index_2, index_j1, index_j2 in sequence_match.get_opcodes():
            if tag == 'replace':
                leven_cost += max(index_2-index_1, index_j2-index_j1)
            elif tag == 'insert':
                leven_cost += (index_j2-index_j1)
            elif tag == 'delete':
                leven_cost += (index_2-index_1)
    return leven_cost

SetLogLevel(-1)

model = Model("../Downloads/vosk-model-small-cn-0.22")

fr=48000
rec = KaldiRecognizer(model, fr)
rec.SetWords(True)

def recognize(file,trans):
	wf = wave.open(file, "rb")
	if wf.getnchannels() != 1 or wf.getsampwidth() != 2 or wf.getcomptype() != "NONE":
	    print("Audio file must be WAV format mono PCM.")

	    sys.exit(1)

	str_ret = ""

	while True:
	    data = wf.readframes(4000)
	    if len(data) == 0:
	        break
	    if rec.AcceptWaveform(data):
	        result = rec.Result()

	        result = json.loads(result)
	        if 'text' in result:
	            str_ret += result['text'] + ' '

	result = json.loads(rec.FinalResult())
	if 'text' in result:
	    str_ret += result['text']
	str_ret=str_ret.replace(' ','')

	wer=get_edit_distance(str_ret,trans)/len(trans)
	print(str_ret,trans,wer)
	wf.close()
	return wer

wers=[]

os.chdir('../dataset/chs')
for file in os.listdir():
	fn,_=os.path.splitext(file)
	st=time.time()
	wer=recognize(file,fn)
	et=time.time()
	print(f'latency:{et-st}, throughput:{1/(et-st)}')
	wers.append(wer)

print(f'average wer:{sum(wers)/len(wers)}')

模型分享：

通过网盘分享的文件：vosk-model-small-cn-0.22.zip
链接: https://pan.baidu.com/s/1FEH1xwDucdC3cEZSAyDOwQ?pwd=k8p5 提取码: k8p5

通过网盘分享的文件：vosk-model-cn-0.22.zip
链接: https://pan.baidu.com/s/1dISCahVsWppnS-bbvyLWEA?pwd=ymgp 提取码: ymgp

实验证明，该模型跟whisper-small准确性不相上下

但是不太了解背后原理的同学们 但是不太了解背后原理的同学们 0.0
latency:3.1716623306274414, throughput:0.3152920758125512
稻穗了解一下它背后的技术 大致了解一下它背后的技术 0.16666666666666666
latency:1.0081496238708496, throughput:0.9919162556054342
我们首先粗略讲一下什么是模型 我们首先粗略讲一下什么是模型 0.0
latency:0.7793216705322266, throughput:1.2831671924599046
方便没了解过的朋友了解一下 方便没了解过的朋友了解一下 0.0
latency:0.7095851898193359, throughput:1.409274058065678
模型你可以想象成是一个数学公式 模型你可以想像成是一个数学公式 0.06666666666666667
latency:1.2141356468200684, throughput:0.8236312002032812
有很多参数组成 有很多参数组成 0.0
latency:0.5059020519256592, throughput:1.9766672149156395
通过不断输出数据来慢慢调整这些参数 通过不断输入数据来慢慢调整这些参数 0.058823529411764705
latency:1.0542182922363281, throughput:0.9485701465857568
此次叔叔是我们想要的结果 使得输出是我们想要的结果 0.3333333333333333
latency:2.623599052429199, throughput:0.38115580163596136
上面的是神经网络里的感知器 上面的是神经网络里的杆子器 0.15384615384615385
latency:1.0342762470245361, throughput:0.9668596788110102
经过计算得出一个叔叔 经过计算的出一个输出 0.3
latency:0.5981805324554443, throughput:1.6717361160102369
这个叔叔又会是下一层感知网络中的其中一个输入 这个输出又会是下一层杆子网络中的其中一个输入 0.18181818181818182
latency:2.2790277004241943, throughput:0.43878360926191046
通过层层计算最后得出结果 通过层层计算最后得出结果 0.0
latency:0.7026369571685791, throughput:1.4232100799674796
这个是可视化后的神经网络 这个是可是画后的神经网络 0.16666666666666666
latency:0.8872697353363037, throughput:1.1270529808175729
里面的每一个点就是刚才的感知器 里面的每一个点就是刚才的杆子器 0.13333333333333333
latency:0.8337037563323975, throughput:1.1994668278804064
可想而知有多少参数在这里面 可想而知有多少参数在这里面 0.0
latency:0.9254887104034424, throughput:1.0805102091024712
就是这些虚拟好的参数 就是这些训练好的参数 0.2
latency:0.7563743591308594, throughput:1.3220966416009765
回到今天的主题 回到今天的主题 0.0
latency:0.40192246437072754, throughput:2.488042069421664
我现在快速地搜索这些之间的关系 我先来快速的说说这些之间的关系 0.3333333333333333
latency:1.3666880130767822, throughput:0.7316958884776718
对不熟悉的朋友可能会比较容易混乱 对不熟悉的朋友可能会比较容易混乱 0.0
latency:0.7901859283447266, throughput:1.2655249405602425
中文叫扩散模型 中文叫扩散模型 0.0
latency:0.43883252143859863, throughput:2.2787736804960566
中文叫潜在扩散模型 中文叫潜在扩散模型 0.0
latency:0.6887063980102539, throughput:1.4519975462535362
四扩散模型的一种变体 是扩散模型的一种辩题 0.3
latency:0.8271274566650391, throughput:1.209003512024591
最大的区别在于 最大的区别在于 0.0
latency:0.45397520065307617, throughput:2.20276349580644
他是先把图片压缩降低维度 它是先把图片压缩降低微度 0.16666666666666666
latency:0.9200732707977295, throughput:1.0868699610553536
压缩后所在的空间就叫潜在空间 压缩后所在的空间就叫潜在空间 0.0
latency:1.7871270179748535, throughput:0.5595573173826142
这么做的好处是可以大幅度减少计算量 这么做的好处是可以大幅度减少计算量 0.0
latency:0.8220288753509521, throughput:1.2165022786736852
你能够运行的原因 也能够运行的原因 0.125
latency:0.6867635250091553, throughput:1.4561052874592735
他把原本繁琐的安装配置 它把原本繁琐的安装配置 0.09090909090909091
latency:0.6167087554931641, throughput:1.6215109500112888
做成了容易操作的网页界面 做成了容易操作的网页介面 0.08333333333333333
latency:1.9976470470428467, throughput:0.5005889311028784
并后续加入了很多插件 并后续加入了很多插件 0.0
latency:0.7259993553161621, throughput:1.3774116914532446
使得它成为了最受欢迎的人 使得它成为了最受欢迎的 0.0
latency:0.9403619766235352, throughput:1.063420283740737
这里说明一下 这里说明一下 0.0
latency:0.34427881240844727, throughput:2.9046225441652065
不是只能用于图片生成 不是只能用于图片生成 0.0
latency:0.9709169864654541, throughput:1.0299541710980054
其他领域一样可以 其他领域一样可以 0.0
latency:0.4771444797515869, throughput:2.0958012560904495
上次音频视频场景 像是音频、视频、场景 0.6
latency:0.8065736293792725, throughput:1.2398124158479935
都有相关的研究在进行 都有相关的研究在进行 0.0
latency:0.7155318260192871, throughput:1.3975618744497957
接下来我们就看看 接下来我们就看看 0.0
latency:0.44231700897216797, throughput:2.260821943799415
那大致有三个模型组成 而大致有三个模型组成 0.1
latency:1.1257195472717285, throughput:0.8883207211099604
在这里用它的文本编码器 在这里用它的文本编码器 0.0
latency:0.8868637084960938, throughput:1.1275689718950819
把文字转换成向量作为输入 把文字转换成像量作为输入 0.08333333333333333
latency:0.9368600845336914, throughput:1.067395245574728
然后就是扩散模型 然后就是扩散模型 0.0
latency:0.511544942855835, throughput:1.954862449459935
用来生成图片 用来生成图片 0.0
latency:0.42545390129089355, throughput:2.350430909120457
因为它是在图片压缩降维后的 因为它是在图片压缩降微后的 0.07692307692307693
latency:1.1141536235809326, throughput:0.8975422947384595
潜在空间进行 潜在空间进行 0.0
latency:0.4994387626647949, throughput:2.002247472071293
所以扩散模型的输入和输出 所以扩散模型的输入和输出 0.0
latency:0.8192014694213867, throughput:1.220700935395433
都是存在空间的图像特征 都是潜在空间的图像特征 0.09090909090909091
latency:1.1503722667694092, throughput:0.8692838213218581
而不是图片本身的像素 而不是图片本身的像素 0.0
latency:0.8228707313537598, throughput:1.2152577092574832
在这里用他的解码器 在这里用它的解码器 0.1111111111111111
latency:0.5948443412780762, throughput:1.6811120668163553
把潜在空间的图像特征 把潜在空间的图像特征 0.0
latency:0.49765753746032715, throughput:2.0094139538270714
还原成图片 还原成图片 0.0
latency:0.5859129428863525, throughput:1.706738197442357
接下来我们重点看一下 接下来我们重点看一下 0.0
latency:0.45286107063293457, throughput:2.2081827404646743
首先给定一张图片 首先给定一张图片 0.0
latency:0.5926363468170166, throughput:1.6873754122083262
在这张图片上 在这张图片上 0.0
latency:0.40926408767700195, throughput:2.443410086812251
我们随机地添加一些噪声 我们随机的添加一些噪声 0.09090909090909091
latency:0.6353418827056885, throughput:1.5739557350467217
也就是高斯噪声 也就是高湿噪声 0.14285714285714285
latency:0.35302066802978516, throughput:2.8326953364544303
然后我们再添加一些噪声 然后我们再添加一些噪声 0.0
latency:0.5416483879089355, throughput:1.8462161474541758
一步一步加上去 一步一步加上去 0.0
latency:0.7592880725860596, throughput:1.317023190676629
直到只剩下噪声 直到只剩下噪声 0.0
latency:0.4281339645385742, throughput:2.335717515609303
然后我们在训练一个网络 然后我们再训练一个网络 0.09090909090909091
latency:0.5732800960540771, throughput:1.7443480192022411
把他从噪声一步一步 把它从噪声一步一步 0.1111111111111111
latency:0.6976330280303955, throughput:1.433418373013771
还原到原来的图片 还原到原来的图片 0.0
latency:0.4281930923461914, throughput:2.335394983886163
那么为什么要上升 那么为什么要噪声 0.25
latency:0.41314101219177246, throughput:2.420481071813365
为什么要这么麻烦要一步步来 为什么要这么麻烦要一步一步来 0.14285714285714285
latency:0.5509512424468994, throughput:1.81504264435229
我不训练一个网络一步到位呢 而不训练一个网络一步到位呢 0.07692307692307693
latency:0.73044753074646, throughput:1.3690237257398605
因为直接移除像素 因为直接移除像素 0.0
latency:0.4887106418609619, throughput:2.0462005823979985
会导致信息丧失 会导致信息上失 0.14285714285714285
latency:0.4539022445678711, throughput:2.203117547814796
添加到生词可以让模型 添加噪声则可以让模型 0.3
latency:0.7140669822692871, throughput:1.4004288460755108
更加学习到图片的特征 更加学习到图片的特征 0.0
latency:0.41089510917663574, throughput:2.433711128866515
而且随机噪声 而且随机噪声 0.0
latency:0.36519455909729004, throughput:2.738266425633121
还增加了模型深层次的多样性 还增加了模型生成时的多样性 0.23076923076923078
latency:0.5187649726867676, throughput:1.9276552054407963
那一步一步地来 而一步一步的来 0.2857142857142857
latency:0.44147515296936035, throughput:2.2651331411836058
可以控制这一过程 可以控制这一过程 0.0
latency:0.43465256690979004, throughput:2.300688126863277
同时提高了去燥过程中的稳定性 同时提高了去照过程中的稳定性 0.07142857142857142
latency:0.7346851825714111, throughput:1.3611272198249356
那每一步要参加多少噪声呢 那每一步要添加多少噪声呢 0.08333333333333333
latency:1.0013277530670166, throughput:0.9986740075235608
可以是每次相同的量 可以是每次相同的量 0.0
latency:0.6678667068481445, throughput:1.4973047611839916
你可以自己开始得少 也可以是一开始加的少 0.5
latency:1.0106494426727295, throughput:0.989462772922957
后面加的多 后面加的多 0.0
latency:0.367840051651001, throughput:2.7185729110020334
先少后多比较好 先少后多比较好 0.0
latency:0.5195541381835938, throughput:1.9247272353485367
图片造成损失的比较慢 图片特征损失的比较慢 0.2
latency:0.40131354331970215, throughput:2.491817225324391
因为高斯噪声可以直接加一起 因为高速噪声可以直接加一起 0.07692307692307693
latency:0.5926804542541504, throughput:1.6872498372810938
并不需要真的一步一步添加噪声 并不需要真的一步一步添加噪声 0.0
latency:1.2749159336090088, throughput:0.784365442174072
所以训练的时候 所以训练的时候 0.0
latency:0.2944920063018799, throughput:3.3956779084010624
直接把随机数量的噪声 直接把随机数量的噪声 0.0
latency:0.5308876037597656, throughput:1.8836378791253798
添加去图片进去 添加去图片进去 0.0
latency:0.5234193801879883, throughput:1.9105138973662874
让训练的网络还原图片 让训练的网络还原图片 0.0
latency:0.5292277336120605, throughput:1.8895457219803022
那现在我们就来看看 那现在我们就来看看 0.0
latency:0.33142805099487305, throughput:3.0172461172137455
还原图片的过程 还原图片的过程 0.0
latency:0.42250847816467285, throughput:2.366816411220628
首先我们从训练数据呢 首先我们从训练数据里 0.1
latency:0.509777307510376, throughput:1.9616408680169548
那一张图片 拿一张图片 0.2
latency:0.399519681930542, throughput:2.503005597040533
这里面添加一定量的噪声 在里面添加一定量的噪声 0.09090909090909091
latency:0.5754339694976807, throughput:1.7378188515233817
然后我们有一个英文单词进网络 然后我们有一个优文案神经网络 0.2857142857142857
latency:1.126802921295166, throughput:0.8874666377777787
可以预测出图片中的噪声 可以预测出图片中的噪声 0.0
latency:0.47626447677612305, throughput:2.0996737081234564
四每一步都共用的 是每一步都共用的 0.125
latency:0.5636987686157227, throughput:1.773997134064536
所以要让他知道目前预测的噪声数量 所以要让它知道目前预测的噪声数量 0.0625
latency:0.8299038410186768, throughput:1.2049588766483312
大概是多少 大概是多少 0.0
latency:0.27402448654174805, throughput:3.6493089089235404
奶的结构这里就不细说了 那的结构这里就不细说了 0.09090909090909091
latency:2.056053638458252, throughput:0.4863686342102718
那结构大概长这样 那结构大概长这样 0.0
latency:0.5897848606109619, throughput:1.6955335187208664
四除的文章输出链接我会放在下面 这图的文章输出链接我会放在下面 0.13333333333333333
latency:1.238537073135376, throughput:0.8074041719788688
是因为它的效果比较好 是因为它的效果比较好 0.0
latency:0.5064165592193604, throughput:1.9746589675927997
现在我们只需要把有输入的图片 现在我们只需要把有输入的图片 0.0
latency:0.8253769874572754, throughput:1.2115675808707518
减去噪声 剪去噪声 0.25
latency:0.7864151000976562, throughput:1.271593080900686
就能得到原图 就能得到原图 0.0
latency:0.3986539840698242, throughput:2.508441003877814
但是当噪声很多的时候 但是当噪声很多的时候 0.0
latency:0.44706273078918457, throughput:2.2368225556058636
网络被无法预测 网络并无法预测 0.14285714285714285
latency:0.567054033279419, throughput:1.7635003744118412
精准的图片细节 精准的图片细节 0.0
latency:0.35230588912963867, throughput:2.8384424752889332
只能预测一个很模糊的大概的轮廓 只能预测一个很模糊的大概的人扩 0.13333333333333333
latency:0.5824799537658691, throughput:1.7167972795196917
这时候我们把它当作云图 这时候我们把它当作圆图 0.09090909090909091
latency:0.8792974948883057, throughput:1.1372715216560771
然后再添加比之前少一点的噪声进去 然后在添加比之前少一点的噪声进去 0.0625
latency:0.7461154460906982, throughput:1.3402751614908122
然后再预测它的噪声 然后再预测它的噪声 0.0
latency:0.6402888298034668, throughput:1.5617951672012529
这样不断重复直到得到原图 这样不断重复直到得到圆图 0.08333333333333333
latency:0.6474807262420654, throughput:1.5444475170773542
这里可以看一下不断预测噪声的整个过程 这里可以看一下不断预测噪声的整个过程 0.0
latency:0.7570631504058838, throughput:1.3208937714956417
这里的噪声看着很值钱不一样是因为这个 这里的噪声看著和之前不一样是因为这个 0.2222222222222222
latency:0.9813899993896484, throughput:1.0189629001945462
四从潜在空间还原出来的噪声 是从前在空间还原出来的噪声 0.15384615384615385
latency:0.9213526248931885, throughput:1.0853607760828043
接下来我们看看如何把文字的内容加进去 接下来我们看看如何把文字的内容加进去 0.0
latency:0.6745576858520508, throughput:1.4824529035450464
领导图片分成我们想要的内容 引导图片生成我们想要的内容 0.15384615384615385
latency:0.9176239967346191, throughput:1.0897709776101292
传承文本特征 转成文本特征 0.3333333333333333
latency:0.4609997272491455, throughput:2.169198680370485
不能用中文 不能用中文 0.0
latency:0.2906935214996338, throughput:3.4400491446840165
然后把文本特征也加入到 然后把文本特征也加入到 0.0
latency:0.5684969425201416, throughput:1.7590244119291292
为了加入文本特征 为了加入文本特征 0.0
latency:0.4629952907562256, throughput:2.1598491819790797
也就是注意力极致 也就是注意力极致 0.0
latency:0.41095423698425293, throughput:2.433360968214858
这摊事的收入 适合参胜的输入 0.8571428571428571
latency:0.418290376663208, throughput:2.3906837350101484
他公司长这样 它光是长这样 0.5
latency:0.8544931411743164, throughput:1.170284408164723
然后我们还是要预测它的噪声 然后我们还是一样预测它的噪声 0.5
latency:0.538322925567627, throughput:1.857621053284261
但是如果只按之前的做法 但是如果只按之前的做法 0.0
latency:0.5871889591217041, throughput:1.7030292965585792
最后生成的图片 最后生成的图片 0.0
latency:0.49436068534851074, throughput:2.0228145757485296
只是有点像我们的文本输入 只是有点像我们的文本输入 0.0
latency:0.6766760349273682, throughput:1.4778120524208254
并不能得到精确描述文本内容的图片 并不能得到精确描述文本内容的图片 0.0
latency:0.900057315826416, throughput:1.1110403553376136
这里我们用到一个叫 这里我们用到一个叫 0.0
latency:0.5967803001403809, throughput:1.6756585292188257
的方法去加强引导 的方法去加强引导 0.0
latency:0.7243368625640869, throughput:1.3805731168507571
我们首先预测两个上升 我们首先预测两个噪声 0.2
latency:0.9983072280883789, throughput:1.0016956422471892
一个是自由文本特征引导一个则是没有 一个是有文本特征引导一个则是没有 0.8125
latency:3.0909011363983154, throughput:0.32353024437567546
然后两个相间 然后两个相简 0.16666666666666666
latency:0.45885634422302246, throughput:2.179331314887433
得到的就是在文本引导下 得到的就是在文本引导下 0.0
latency:0.417522668838501, throughput:2.3950795361168833
改变了的不同的地方 改变了的不同的地方 0.0
latency:0.723538875579834, throughput:1.3820957432295726
然后我们把这种改变了的信号放大 然后我们把这种改变了的信号放大 0.0
latency:0.6339287757873535, throughput:1.5774642802071541
然后家具没有文本特征引导的噪声 然后加去没有文本特征引导的噪声 0.13333333333333333
latency:1.2751896381378174, throughput:0.7841970873134746
这就得到了一个加强 这就得到了一个加强了 0.0
latency:0.5703961849212646, throughput:1.7531674061565405
文本引导的噪声 文本引导的噪声 0.0
latency:0.44912123680114746, throughput:2.226570284501508
这个就是 这个就是 0.0
latency:0.25507450103759766, throughput:3.9204232329463666
这里可以看一下不同数字 这里可以看一下不同数值 0.09090909090909091
latency:0.4492640495300293, throughput:2.225862499004962
最后出来的图片效果 最后出来的图片效果 0.0
latency:0.45235681533813477, throughput:2.210644265970668
这后面就很值钱一样 这后面就和之前一样 0.3333333333333333
latency:0.5269231796264648, throughput:1.8978098490730635
减去噪声得到模糊的原图 简趣噪声得到模糊的圆图 0.2727272727272727
latency:0.7047593593597412, throughput:1.418924043674253
继续预测 继续预测 0.0
latency:0.24240803718566895, throughput:4.125275760696269
直到生成原图 直到生成圆图 0.16666666666666666
latency:0.3200979232788086, throughput:3.1240440105229603
顺带一提 顺带一提 0.0
latency:0.2644195556640625, throughput:3.781868544059092
四预测有三项体式时的噪声 是预测有真相提示词的噪声 0.5
latency:1.891472339630127, throughput:0.5286886723363597
反复向体式时的噪声 和富像提示词的噪声 0.6666666666666666
latency:4.127241134643555, throughput:0.2422926035520733
哪个相信死的预测更加远离 两个相简时的预测更加远离 0.25
latency:1.105525016784668, throughput:0.9045475993916636
不像体式似的图像 富像提示词的图像 0.5
latency:0.6835219860076904, throughput:1.4630107304094075
讲到这里扩散模型的基本原理 讲到这里扩散模型的基本原理 0.0
latency:0.5241458415985107, throughput:1.9078659423305846
就讲完了 就讲完了 0.0
latency:0.2590827941894531, throughput:3.859770013398707
接下来我们就来看一下 接下来我们就来看一下 0.0
latency:0.3923795223236084, throughput:2.548552977683853
中文照片分自编码器 中文教辨分字编码器 0.3333333333333333
latency:0.5973756313323975, throughput:1.6739886054099358
简单来说它有一个编码器和解码器 简单来说它有一个编码器和解码器 0.0
latency:0.7052273750305176, throughput:1.4179823917877927
输入一张图片 输入一张图片 0.0
latency:0.5999875068664551, throughput:1.6667013705380027
经过编码器得到潜在空间里的特征 经过编码器得到潜在空间里的特征 0.0
latency:0.6944963932037354, throughput:1.4398922871103277
然后再把特征输入到解码器 然后再把特征输入到解码器 0.0
latency:1.1672577857971191, throughput:0.856708785469442
还原到原来的图片 还原到原来的图片 0.0
latency:0.4176757335662842, throughput:2.3942018164703893
他详细结构这里就不细说了 它详细解构这里就不细说了 0.16666666666666666
latency:0.5883650779724121, throughput:1.6996250073953048
大概长这样 大概长这样 0.0
latency:0.2967863082885742, throughput:3.3694276726124106
你是学习一个概率 也是学习一个概率 0.125
latency:0.35611724853515625, throughput:2.8080639287015017
我会把相关链接放在下面 我会把相关链接放在下面 0.0
latency:0.5288572311401367, throughput:1.8908694844620926
有兴趣的可以去看一看 有兴趣的可以去看看 0.1111111111111111
latency:0.3972022533416748, throughput:2.517609080983225
你训练的时候 你训练的时候 0.0
latency:0.2953150272369385, throughput:3.3862144075644194
一说到潜在空间 压缩到潜在空间 0.2857142857142857
latency:0.5012917518615723, throughput:1.9948463071384068
然后在潜在空间里训练扩散模型 然后在潜在空间里训练扩散模型 0.0
latency:0.9607679843902588, throughput:1.0408340163776788
所以扩散模型的输入输出 所以扩散模型的输入输出 0.0
latency:0.5126569271087646, throughput:1.9506222331564074
都是潜在空间里的特征 都是潜在空间里的特征 0.0
latency:0.5151050090789795, throughput:1.941351729015458
而不是图片本身的像素 而不是图片本身的像素 0.0
latency:0.6512045860290527, throughput:1.5356157211635273
所以在推理的时候 所以在推理的时候 0.0
latency:0.5263738632202148, throughput:1.8997903769048616
也就是生成图片的时候 也就是生成图片的时候 0.0
latency:0.40648698806762695, throughput:2.460103347351504
他一开始随机噪声 它一开始随机造生 0.375
latency:0.7174956798553467, throughput:1.3937366148345431
其实在潜在空间里生成的 也是在潜在空间里生成的 0.18181818181818182
latency:1.7147881984710693, throughput:0.5831623992348529
瞬间看推理的时间汉阴县需求 训练和推理的时间和硬件需求 0.46153846153846156
latency:1.8387928009033203, throughput:0.5438350636943666
减少了很多 减少了很多 0.0
latency:0.3124978542327881, throughput:3.200021972807125
有好处当然也有坏处 有好处当然也有坏处 0.0
latency:0.6164646148681641, throughput:1.6221531226311474
因为压缩收购在还原 因为是压缩过在还原 0.4444444444444444
latency:1.601731300354004, throughput:0.6243244417955662
不多不少都会损失掉一些细节 不多不少都会损失掉一些细节 0.0
latency:0.571143627166748, throughput:1.750873077163908
顺带一提 顺带一提 0.0
latency:0.2687985897064209, throughput:3.7202576140454826
初三模型训练的时候直接拿来用 扩散模型训练的时候直接拿来用 0.14285714285714285
latency:0.7654950618743896, throughput:1.3063441553122526
大概意思就是用文字和图像做对比的 大概意思就是用文字和图像做对比的 0.0
latency:0.798616886138916, throughput:1.2521648582146987
一训练模型 预训练模型 0.2
latency:0.5290863513946533, throughput:1.89005064554025
它的作用就是把文本和图像联系起来 它的作用就是把文本和图像联系起来 0.0
latency:0.680880069732666, throughput:1.4686874303614585
和一个图像编码器组成 会一个图像编码器组成 0.1
latency:0.6045112609863281, throughput:1.6542289028137995
他的训练及隐私文字图片对 它的训练级也是文字图片队 0.4166666666666667
latency:1.1558864116668701, throughput:0.865136911297304
训练的时候用一组组文字图片对做对比 训练的时候用一组组文字图片队做对比 0.058823529411764705
latency:0.8575489521026611, throughput:1.16611418805662
经过编码器分别得到文本特征和图像特征 经过编码器分别得到文本特征和图像特征 0.0
latency:1.1238996982574463, throughput:0.8897591142256316
然后就算两个特征的相似度 然后计算两个特征的相似度 0.08333333333333333
latency:0.6892704963684082, throughput:1.4508092327594855
训练好以后对应的文字图片相似度会很高 训练好以后对应的文字图片相似度会很高 0.0
latency:0.9232897758483887, throughput:1.083083584545409
不对应的则很低 不对应得则很低 0.14285714285714285
latency:1.3607234954833984, throughput:0.7349031624126906
这样就可以把文字和图片联系起来 这样就可以把文字和图片联系起来 0.0
latency:0.6621203422546387, throughput:1.510299467004473
但是他的训练其没有公开 但是它的训练级没有公开 0.18181818181818182
latency:1.060063123703003, throughput:0.9433400498894906
所以 所以 0.0
latency:0.24097251892089844, throughput:4.1498507982491555
没有用到图像编码器 没有用到图像编码器 0.0
latency:0.39188337326049805, throughput:2.5517796064679334
我们现在来回顾一下 我们现在来回顾一下 0.0
latency:0.40494680404663086, throughput:2.469460161203907
压缩降维到潜在空间 压缩降为到潜在空间 0.1111111111111111
latency:0.7369170188903809, throughput:1.3570048924989664
最后就从噪声开始推理 之后就从噪声开始推理 0.1
latency:0.7180345058441162, throughput:1.3926907298478743
直到前一步的上升图 得到前一步的噪声图 0.3333333333333333
latency:1.435072898864746, throughput:0.6968287121797628
没有噪声的图像特征 没有噪声的图像特征 0.0
latency:0.4099147319793701, throughput:2.439531741567969
最不同的是把图像从像素空间 最不同的是把图像重向速空间 0.23076923076923078
latency:1.125192642211914, throughput:0.888736703818282
压缩到潜在空间处理 压缩到潜在空间处理 0.0
latency:0.710695743560791, throughput:1.4070718856281748
训练好以后生成图片只需要下半部分的 训练好以后生成图片只需要下半部分的 0.0
latency:1.6390485763549805, throughput:0.6101100445868805
反向扩散过程就行 反向扩散过程就行 0.0
latency:0.6614418029785156, throughput:1.511848805891818
随机生成噪声在推理 随机生成噪声再推理 0.1111111111111111
latency:0.5051543712615967, throughput:1.9795928866309762
这里可以看一下论文的原图 这里可以看一下论文的原图 0.0
latency:0.48909783363342285, throughput:2.044580718281195
条件引导不定式文本 条件引导不一定是文本 0.4
latency:1.1939258575439453, throughput:0.8375729478354083
其他的都可以转成特征去引导 其他的都可以转成特征去引导 0.0
latency:0.6621346473693848, throughput:1.5102668376786066
那原理到这里就讲完了 的原理到这里就讲完了 0.1
latency:1.0867788791656494, throughput:0.9201503812511778
关于其他那些微调模型训练方法 关于其他那些微调模型训练方法 0.0
latency:0.7112300395965576, throughput:1.4060148536010177
这里就不详细解释了 这里就不详细解释了 0.0
latency:0.3966820240020752, throughput:2.5209108038502106
此处设想一下 只出略讲一下 0.6666666666666666
latency:0.6222760677337646, throughput:1.6070037911659512
我会把链接放下面 我会把链接放下面 0.0
latency:0.4257321357727051, throughput:2.3488948002128076
当然第一步你要准备自己想训练的图片及 当然第一步你要准备自己想训练的图片集 0.05555555555555555
latency:1.1076388359069824, throughput:0.9028213597992498
后关键词 后关键词 0.0
latency:0.3191850185394287, throughput:3.1329791246968273
关键词一尽量特别 关键词要尽量特别 0.125
latency:0.9400224685668945, throughput:1.063804359404881
尽量是模型没见过的 尽量是模型没见过的 0.0
latency:0.6835174560546875, throughput:1.4630204263868736
不然模型会搞混 不然模型会搞混 0.0
latency:0.3958272933959961, throughput:2.526354338581634
朱茵不的话 注意不值的话 0.6666666666666666
latency:1.5501177310943604, throughput:0.6451122904671341
自己最用心的图片看关键词 是直接用新的图片和关键词 0.4166666666666667
latency:1.547281265258789, throughput:0.646294906073684
所以保存的时候 所以保存的时候 0.0
latency:0.2848784923553467, throughput:3.5102685068714763
一保存整个修改过的模型 要保存整个修改过的模型 0.09090909090909091
latency:0.5383529663085938, throughput:1.8575173958023328
所以文静很大 所以文件很大 0.16666666666666666
latency:0.3289320468902588, throughput:3.0401416020544474
然后去训练这些神 然后去训练这些程 0.125
latency:0.49518871307373047, throughput:2.0194321348578606
保存的时候只需要保存这些层 保存的时候只需要保存这些程 0.07692307692307693
latency:0.8678004741668701, throughput:1.1523386190357268
所以文件比较小 所以文件比较小 0.0
latency:0.34515929222106934, throughput:2.8972130333362576
所以使用的时候需要基础模型 所以使用的时候需要基础模型 0.0
latency:0.4916050434112549, throughput:2.034153256567477
这话很特别 倒话很特别 0.2
latency:0.3631739616394043, throughput:2.7535013674600957
他是调整可以让他输出 它是调整可以让它输出 0.2
latency:1.2882745265960693, throughput:0.776232068053259
五核心图片的文本特征 符合新图片的文本特征 0.3
latency:0.6898770332336426, throughput:1.4495336876381086
所以这类型文章更加小 所以这类型文件更加小 0.1
latency:0.8555934429168701, throughput:1.1687794106869522
只需要保存学习到的特征 只需要保存学习到的特征 0.0
latency:0.5298998355865479, throughput:1.887149104119077
它是通过训练另外一个神经网络 它是通过训练另外一个神经网络 0.0
latency:0.5881712436676025, throughput:1.7001851259582104
这个网络就可以输入那些 这个网络就可以输入那些 0.0
latency:0.4551427364349365, throughput:2.1971129492977237
用来作为控制条件的图像 用来作为控制条件的图像 0.0
latency:0.5011067390441895, throughput:1.9955828211518352
例如谷歌什么的 例如谷歌什么的 0.0
latency:0.38388848304748535, throughput:2.6049231590943673
到这里就全部讲完了 到这里就全部讲完了 0.0
latency:0.4703850746154785, throughput:2.125917793666096
这个视频是为了能让大家 这个视频是为了能让大家 0.0
latency:0.5806305408477783, throughput:1.7222655882687476
有个大概的了解 有一个大概的了解 0.75
latency:0.3558962345123291, throughput:2.8098077558203487
有兴趣想更深入了解 有兴趣想更深入了解 0.0
latency:0.41057467460632324, throughput:2.435610527996748
背后细节的同学们 背后细节的同学们 0.0
latency:0.538581371307373, throughput:1.856729648061465
可以参考下面的链接 可以参考下面的链接 0.0
latency:0.3939552307128906, throughput:2.5383594937689424
希望这个视频能帮助到大家了解 希望这个视频能帮助到大家了解 0.0
latency:0.5165016651153564, throughput:1.9361021803804992
别的的基本原理 别的基本原理 0.6666666666666666
latency:0.6338052749633789, throughput:1.5777716587445247
非常感谢各位的观看 非常感谢各位的观看 0.0
latency:0.3612549304962158, throughput:2.7681283093532065
再会 再会 0.0
latency:0.1860027313232422, throughput:5.376265138075657
average wer:0.10238937659131347

通过网盘分享的文件：vosk-model-en-us-0.22.zip
链接: https://pan.baidu.com/s/1z-d1A8wHvBs7m2dpMjYjXQ?pwd=8hg9 提取码: 8hg9

通过网盘分享的文件：vosk-model-ja-0.22.zip
链接: https://pan.baidu.com/s/1eQCEzNvdjnbyLILdu56RDw?pwd=8nhv 提取码: 8nhv

模型下载自https://alphacephei.com/vosk/models

创建于2412261646，修改于2412261646

posted @ 2024-12-26 16:47 园糯阅读(2469) 评论(0) 收藏举报

刷新页面返回顶部

园糯

步履不停步履不停

使用vosk模型进行语音识别

评估vosk模型的词错率，响应时间和吞吐量

公告

园糯

步履不停 步履不停

使用vosk模型进行语音识别

评估vosk模型的词错率，响应时间和吞吐量

公告

步履不停步履不停