摘要:
百度:最全 文字,语音,视频都做。 百度的视频理解主要是内容的理解,将内容来源归纳为4个维度,语音,文字,人脸(公众人物的人脸识别)和场景(类别泛标签提取) 视频融合了多模态元素,包括(语音,文字(弹幕),图像) 对于动作等不太涉及 ocr:通用文字识别,增值税发票,身份证 人脸:检测,识别,查找 阅读全文
摘要:
https://blog.csdn.net/Ezereal/article/details/79238150 下载地址账号:HENRY_ 密码:199111 阅读全文