摘要: 百度:最全 文字,语音,视频都做。 百度的视频理解主要是内容的理解,将内容来源归纳为4个维度,语音,文字,人脸(公众人物的人脸识别)和场景(类别泛标签提取) 视频融合了多模态元素,包括(语音,文字(弹幕),图像) 对于动作等不太涉及 ocr:通用文字识别,增值税发票,身份证 人脸:检测,识别,查找 阅读全文
posted @ 2020-06-22 17:48 Parallax 阅读(326) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/Ezereal/article/details/79238150 下载地址账号:HENRY_ 密码:199111 阅读全文
posted @ 2020-06-22 16:07 Parallax 阅读(209) 评论(0) 推荐(0) 编辑