摘要:
经过前面研究图像算法和近阶段研究视频和音频算法的经历经验. 在2019年快要来临的时候,写下这篇小记. 目的很简单,总结过往,展望未来. 这里列举一些本人在算法上踩过的坑和出坑思路. 主要是数据标准化问题. 1.临界值问题 (最大值,最小值,阈值,无穷小,无穷大) 最早做一键修图的时候,在这个坑上踩 阅读全文
摘要:
很长一段时间,扎根在音频领域,各种玩耍。 渐渐上了轨道。 一切的一切仅仅因为相信自己能做好,也必须做好。 不懂就去查,去问,去找资料,去找视频。 渐渐的,我开始懂了,也慢慢有了系统性的理解。 随后经常能发散思维。 最近, 在自动增益, 音频降噪, 语速检测, 相位谱重建各个算法之间穿梭。 慢慢有所产 阅读全文
摘要:
前面提及过,音频指纹算法的思路。 也梳理开源了两个比较经典的算法。 https://github.com/cpuimage/shazam https://github.com/cpuimage/AudioFingerprinter 后来一段时间,稍微看了下这两个算法,还有不少可以精简优化的空间。 例 阅读全文
摘要:
关于图像模糊算法的实现, 我相信大多数学习图像算法的朋友都很熟悉。 例如常见的毛玻璃效果,高斯模糊等等。 而图像模糊最简单的实现就是 在一定区域 对像素做平均值计算。 术语描述,卷积。 1.认识卷积 而平均值计算可以,看做是一种常见的卷积计算,卷积核权重都为1。 OpenCV中与之对应的算法是Box 阅读全文
摘要:
前面提及到《大话音频变声原理 附简单示例代码》与《声音变调算法PitchShift(模拟汤姆猫) 附完整C++算法实现代码》 都稍微讲过变声的原理和具体实现。 大家都知道,算法从实现到最后工程应用,中间的环节和问题特别多。 尤其是编码的架构设计,好的数据结构和代码逻辑封装肯定是可复用,组件化的。 前 阅读全文
摘要:
这篇文章酝酿了很久,一直没抽时间写。 在中秋,国庆来临之时,落笔。 写之前,先交代几件事情, 主要是 回复 给我发邮件以及QQ上询问的朋友们的一些疑问和需求,这里稍作回复一下。 1.关于 票据ocr预处理算法 相关算法细节已经开源。 项目地址: https://github.com/cpuimage 阅读全文
摘要:
关于音频变声算法,这个是一个很多人特别感兴趣的话题。 当然也有不少开源算法可以参阅学习,有基于时域,也有基于频域的算法。 最终算法想要达到的目的是一致。 最近也有不少网友问过关于变声算法的一些细节问题,邮件询问我。 要给出一个比较合理或者说通俗易懂的解释,看似简单,其实还蛮难的。 按照大概的一个逻辑 阅读全文
摘要:
是的,你没有看错, 不是c++不是c#, 就是你认识的那个c语言。 在很长一段时间里,c的内存管理问题, 层出不穷,不是编写的时候特别费劲繁琐, 就是碰到内存泄漏排查的各种困难, 特别在多线程环境下,就难上加难了, 诸如此类的老大难问题。 c++用它的RAII机制妥妥影响了一代程序员。 RAII大概 阅读全文
摘要:
前面写过关于傅里叶算法的应用例子。 《基于傅里叶变换的音频重采样算法 (附完整c代码)》 当然也就是举个例子,主要是学习傅里叶变换。 这个重采样思路还有点瑕疵, 稍微改一下,就可以支持多通道,以及提升性能。 当然思路很简单,就是切分,合并。 留个作业哈。 本文不讲过多的算法思路,傅里叶变换的各种变种 阅读全文
摘要:
在讲算法之前,上一些前人的资料。 http://coding-geek.com/how-shazam-works/ https://laplacian.wordpress.com/2009/01/10/how-shazam-works/ http://royvanrijn.com/blog/2010 阅读全文