04 2021 档案
摘要:RCNN存在的问题: 1、一张图像上有大量的重叠框,所以这些候选框送入神经网络时候,提取特征会有冗余! 2、训练的空间需求大。因为RCNN中,独立的分类器和回归器需要很多的特征作为训练。RCNN中提取候选框,提取特征和分类回归是分开的,可独立。 Fast RCNN 针对上诉问题: Q1:将整张图片归
阅读全文
摘要:目标检测architecture通常可以分为两个阶段: (1)region proposal:给定一张输入image找出objects可能存在的所有位置。这一阶段的输出应该是一系列object可能位置的bounding box。这些通常称之为region proposals或者 regions of
阅读全文
摘要:SPP-Net是出自2015年发表在IEEE上的论文-《Spatial Pyramid Pooling in Deep ConvolutionalNetworks for Visual Recognition》。在此之前,所有的神经网络都是需要输入固定尺寸的图片,比如224*224(ImageNet
阅读全文
摘要:基于region proposal的RCNN系列:RCNN、Fast RCNN、Faster RCNN 基于区域划分的YOLO、SSD 基于强化学习的AttentionNet等,还有最新的Mask RCNN。 我们将用一周时间先详细介绍每个模型然后通过Tensorflow跑一遍模型。 说到基于reg
阅读全文
摘要:先介绍几个物体检测的相关知识 不同于分类问题,物体检测可能会存在多个检测目标,这不仅需要我们判别出各个物体的类别,而且还要准确定位出物体的位置 下面图片上有猫,有狗,还有小黄鸭,这是多物体检测: 1.png 物体检测算法常用到的概念 下面我们讲解一下在物体检测算法中常用到的几个概念:Bbox,IoU
阅读全文
摘要:由于要重构项目的部分代码,要整理好主要的函数调用关系,不想自己看代码慢慢画出结构,想找出一种通用的,节省人力的方法得出函数间的调用关系图,于是发现以下几个工具。(内网没装好graphviz,还没真正用上) 主要分下面三个模块了解一下python中如何生成函数关系调用图: 1、graphviz(Gra
阅读全文
摘要:用3D卷积做视频特征提取,这样时间和空间信息就都包含在内了。 3D卷积+RNN时间序列 应该是对视频处理的一个较好解决方案。
阅读全文
摘要:如何以图学图 用图片做标签
阅读全文
摘要:1)RGB颜色空间 RGB(红绿蓝)是依据人眼识别的颜色定义出的空间,可表示大部分颜色。但在科学研究一般不采用RGB颜色空间,因为它的细节难以进行数字化的调整。它将色调,亮度,饱和度三个量放在一起表示,很难分开。它是最通用的面向硬件的彩色模型。该模型用于彩色监视器和一大类彩色视频摄像。 2)CMY/
阅读全文
摘要:什么是CPU? 中央处理器(CPU),是电子计算机的主要设备之一,电脑中的核心配件。其功能主要是解释计算机指令以及处理计算机软件中的数据。CPU是计算机中负责读取指令,对指令译码并执行指令的核心部件。中央处理器主要包括两个部分,即控制器、运算器,其中还包括高速及实现它们缓冲处理器之间联系的数据、控制
阅读全文
摘要:https://www.nvidia.cn/autonomous-machines/embedded-systems/jetson-tx2/
阅读全文
摘要:1 介绍 NVIDA Jeston TX2套件是一个用于AI计算的全功能开发平台,通过预装的Linux系统环境(具体为ubuntu系统)帮助使用者快速的启动并运行。开发套件包含许多通用的API接口并且支持英伟达所有的开发工具。该开发套件板载了许多硬件接口,可以灵活的扩展相关应用。 在网址https:
阅读全文
摘要:前面的博客里说过最近几个月我从传统语音(语音通信)切到了智能语音(语音识别)。刚开始是学语音识别领域的基础知识,学了后把自己学到的写了PPT给组内同学做了presentation(语音识别传统方法(GMM+HMM+NGRAM)概述)。一段时间后老板就布置了具体任务:在我们公司自己的ARM芯片上基于k
阅读全文
摘要:一方面更加增加自己C++的基本功,另一方面也可以让自己慢慢走入语音识别的大门。 首先我决定从kaldi的官网入手,不多说进入主题。 kaldi是什么kaldi是使用c++写的语音识别的工具,apache 授予了v2.0的证书(果真应验,apache旗下无弱将)。kaldi旨在供语音识别研究员使用。
阅读全文
摘要:Kaldi是当前最流行的开源语音识别工具(Toolkit),它使用WFST来实现解码算法。Kaldi的主要代码是C++编写,在此之上使用bash和python脚本做了一些工具. 语音识别,大体可分为“传统”识别方式与“端到端”识别方式,其主要差异就体现在声学模型上。 “传统”方式的声学模型一般采用隐
阅读全文
摘要:kaldi是什么 kaldi是一个用C++写的语音识别工具包。kaldi旨在供语音识别研究员使用。当然,kaldi也可以用作声纹识别。关于他的详细介绍可以访问kaldi的官方文档 kaldi与中文语音识别感谢很多大神与科研工作者在kaldi上开源了他们的数据集和训练模型,让我这样的小白可以站在巨人的
阅读全文
摘要:“Xavier”初始化方法是一种很有效的神经网络初始化方法,方法来源于2010年的一篇论文《Understanding the difficulty of training deep feedforward neural networks》,可惜直到近两年,这个方法才逐渐得到更多人的应用和认可。 为
阅读全文
摘要:TensorBoard是TensorFlow下的一个可视化的工具,能够帮助我们在训练大规模神经网络过程中出现的复杂且不好理解的运算。 TensorBoard能展示你训练过程中绘制的图像、网络结构等。 1.构建简单的TensorBoard日志输出 import tensorflow as tf inp
阅读全文
摘要:模型文件的保存 tensorflow将模型保持到本地会生成4个文件: meta文件:保存了网络的图结构,包含变量、op、集合等信息 ckpt文件: 二进制文件,保存了网络中所有权重、偏置等变量数值,分为两个文件,一个是.data-00000-of-00001 文件,一个是 .index 文件 che
阅读全文
摘要:TFRecord生成 一、为什么使用TFRecord? 正常情况下我们训练文件夹经常会生成 train, test 或者val文件夹,这些文件夹内部往往会存着成千上万的图片或文本等文件,这些文件被散列存着,这样不仅占用磁盘空间,并且再被一个个读取的时候会非常慢,繁琐。占用大量内存空间(有的大型数据不
阅读全文
摘要:应用场景 假如我们有一系列诉求是把图片识别成一个特定分类、比如 把图片分类成为猫、狗、狼等 把图片分类成为奔驰、宝马、奥迪 ... 几乎很少有人从头训练网络、复用只有训练的网络参数适应新的数据集、参考transfer-learning In practice, very few people tra
阅读全文
摘要:LeNet-5、AlexNet、ZFNet、VGGNet、GoogleNet、ResNet,ResNeXt,DenseNet,Shake Shake,SeNet,MobileNet,ShuffleNet,DarkNet LeNet:最早用于数字识别的CNN AlexNet:2012年ILSVRC比赛
阅读全文