随笔分类 -  音视频处理

摘要:语音识别技术的快速发展为实现更多智能化应用提供了无限可能。本文旨在介绍一个基于Python实现的简易音频录制与语音识别应用。文章简要介绍相关技术的应用,重点放在音频录制方面,而语音识别则关注于调用相关的语音识别库。本文将首先概述一些音频基础概念,然后详细讲解如何利用PyAudio库和SpeechRe 阅读全文
posted @ 2023-08-21 12:10 落痕的寒假 阅读(2650) 评论(0) 推荐(2) 编辑
摘要:本文将详细介绍如何使用ffmpeg 4.4在C++中解码多种格式的媒体文件,这些媒体文件可以是视频、视频流、图片,或是桌面截屏或USB摄像头的实时图片。解码文件后,还将每帧图片转换为OpenCV的Mat格式以供后续使用。 [toc] # 1 基于ffmpeg的媒体文件解码 ## 1.1 简介 在开始 阅读全文
posted @ 2023-05-31 11:42 落痕的寒假 阅读(656) 评论(0) 推荐(1) 编辑
摘要:DeFFcode是一种跨平台的高性能视频帧解码器,通过内部封装ffmpeg,提供GPU解码支持,几行python代码就能够快速解码视频帧,并具有强大的错误处理能力。DeFFcode的APIs支持多种媒体流作为输入源,例如IP摄像机、常规多媒体文件、屏幕录制、图像序列、网络协议(例如 HTTP(s)、 阅读全文
posted @ 2022-08-19 11:38 落痕的寒假 阅读(526) 评论(0) 推荐(0) 编辑
摘要:VidGear是一个高性能的Python视频处理库,它在预载多个专业视频图像处理库的基础上,如OpenCV、FFmpeg、ZeroMQ、picamera、starlette、yt_dlp、pyscreenshot、aiortc和Python mss等,提供了一个易于使用、高度可扩展、彻底优化的多线程 阅读全文
posted @ 2022-08-12 21:02 落痕的寒假 阅读(488) 评论(0) 推荐(0) 编辑
摘要:live555是一个为流媒体提供解决方案的跨平台的C++开源项目,它实现了对标准流媒体传输协议如RTP/RTCP、RTSP、SIP等的支持。使用live555可以播放rtsp流。本文主要是在linux下搭建使用live555搭建rtsp server,主要步骤如下: 下载源码并编译http://ww 阅读全文
posted @ 2020-05-07 19:05 落痕的寒假 阅读(290) 评论(0) 推荐(0) 编辑
摘要:所需要硬件及软件环境: python 3/OpenCV3.4 or C++11/OpenCV3.4 1 RTSP协议 RTSP (Real Time Streaming Protocol),是一种语法和操作类似 HTTP 协议,专门用于音频和视频的应用层协议。 和 HTTP 类似,RTSP 也使用 阅读全文
posted @ 2019-04-19 17:04 落痕的寒假 阅读(778) 评论(0) 推荐(0) 编辑