11 2020 档案
摘要:在Yolov5 Yolov4 Yolov3 TensorRT 实现Implementation news: yolov5 support 引论 该项目是nvidia官方yolo-tensorrt的封装实现。你必须有经过训练的yolo模型(.weights)和来自darknet(yolov3&yolo
阅读全文
摘要:TensorRT 基于Yolov3的开发 Models Desc tensorRT for Yolov3 https://github.com/lewes6369/TensorRT-Yolov3 Test Enviroments Ubuntu 16.04 TensorRT 5.0.2.6/4.0.1
阅读全文
摘要:大规模数据处理Apache Spark开发 Spark是用于大规模数据处理的统一分析引擎。它提供了Scala、Java、Python和R的高级api,以及一个支持用于数据分析的通用计算图的优化引擎。它还支持一组丰富的高级工具,包括用于SQL和DataFrames的Spark SQL、用于机器学习的M
阅读全文
摘要:算法编程Algos Programming 不同算法的集合,用于编程比赛,如ACM ICPC。 算法按主题划分。大多数算法都可以从文件中按原样运行。每种算法都有一个参考问题,并对其时间和空间复杂度作了一些说明。 参考:https://github.com/ADJA/algos 算法列表List of
阅读全文
摘要:Timer定时器开发 定时器的作用是不占线程的等待一个确定时间,同样通过callback来通知定时器到期。 参考:https://github.com/sogou/workflow 定时器的创建 同样是在WFTaskFactory类里的方法: using timer_callback_t = std
阅读全文
摘要:matrix_multiply代码解析 关于matrix_multiply 程序执行代码里两个矩阵的乘法,并将相乘结果打印在屏幕上。 示例的主要目的是展现怎么实现一个自定义CPU计算任务。 参考:https://github.com/sogou/workflow 示例代码 https://githu
阅读全文
摘要:runtime系统的Cello 通过充当一个现代的、功能强大的runtime系统,Cello使许多以前在C中不切实际或笨拙的事情变得简单,例如: 通用数据结构 多态函数 接口/类型类 构造函数/析构函数 可选垃圾回收 例外情况 反思 而且,由于Cello与标准C无缝地协同工作,所以您可以获得其他所有
阅读全文
摘要:用户自定义协议client/server代码示例 代码参考链接:https://github.com/sogou/workflow message.h message.cc server.cc client.cc 关于user_defined_protocol 本示例设计一个简单的通信协议,并在协议
阅读全文
摘要:使用TensorRT集成推理inference 使用TensorRT集成进行推理测试。 使用ResNet50模型对每个GPU进行推理,并对其它模型进行性能比较,最后与其它服务器进行比较测试。 ResNet-50 Inference performance: Throughput vs Batch s
阅读全文
摘要:Abstract 本cuDNN 8.0.4开发人员指南概述了cuDNN功能,如可自定义的数据布局、支持灵活的dimension ordering,striding,4D张量的子区域,这些张量用作其所有例程的输入和输出。这种灵活性可简单集成到任何神经网络实现中。 要访问cuDNN API参考,请参阅c
阅读全文
摘要:TVM源码框架安装方法 本文提供如何在各种系统上从零构建和安装TVM包的说明。它包括两个步骤: 首先从C++代码中构建共享库(linux的libtvm.so,macOS的libtvm.dylib和windows的libtvm.dll)。 编程语言包的设置(例如Python包)。 实现,请从下载页面下
阅读全文
摘要:在OpenShift平台上验证NVIDIA DGX系统的分布式多节点自动驾驶AI训练 自动驾驶汽车的深度神经网络(DNN)开发是一项艰巨的工作。本文验证了DGX多节点,多GPU,分布式训练在DXC机器人驱动环境中运行。 还使用了一个机器人学习平台来驱动深度学习(11.3)的工作负载。目前,OpenS
阅读全文
摘要:NVIDIA DRIVE AGX开发工具包 英伟达drive™ AGX开发工具包提供了开发生产级自主车辆(AV)所需的硬件、软件和示例应用程序。NVIDIA DRIVE AGX系统建立在汽车产品级芯片上,具有开放的软件框架,并拥有大量汽车合作伙伴(包括产品级传感器供应商、汽车1级供应商)可供选择。
阅读全文
摘要:大数据目标检测推理管道部署 本文提供了一个用于对象检测的深度学习推理的概述。 自主车辆软件开发需要大规模的数据、计算和算法创新,这些都是gpu实现的。一组神经网络构成了感知和决策系统的基础。神经网络的性能与数据量成比例地增加,并且需要基础设施来支持大规模的训练和推理。 为了使自动驾驶汽车(AV)达到
阅读全文
摘要:随着2020年的发展,远程工作解决方案已成为许多人的新常态。企业正在寻找行之有效的解决方案,如虚拟桌面基础设施(VDI),以使他们的团队能够在任何地方安全地工作。然而,最新的算力和视频会议应用程序需要更强大的台式机来确保良好的用户体验。 借助NVIDIA GRID vPC,它可以经济高效地将虚拟化扩
阅读全文
摘要:使用NVIDIA A100 TF32获得即时加速 NVIDIA A100带来了我们公司历史上最大的单代性能增长。这是一个新的结构创新,这是一个多功能的支持,这是一个多功能的结构支持。TF32是用于深度学习训练的绝佳精度,因为它结合了FP32的范围和FP16的精度,与上一代的FP32精度相比,可提供高
阅读全文
摘要:使用PCAST检测散度以比较GPU和CPU结果 并行编译器辅助软件测试(PCAST)是英伟达HPC FORTRAN、C++和C编译器中的一个特性。PCAST有两个用例。一个新的处理器或新的编译程序的部分或新的时间标志首先被编译。您可能需要测试新库是否会产生相同的结果,或者测试添加OpenMP并行、启
阅读全文
摘要:用NVIDIA NsightcComputeRoofline分析加速高性能HPC的应用 编写高性能的软件不是一件简单的任务。当有了可以编译和运行的代码之后,当您尝试并理解它在可用硬件上的执行情况时,将引入一个新的挑战。不同的平台,无论是cpu、gpu还是其他平台,都会有不同的硬件限制,比如可用内存带
阅读全文
摘要:Pipe Utilization管道利用率 概述 CUDA设备的每个流式多处理器(SM)都具有许多专门用于执行特定任务的硬件单元。在芯片级,这些单元提供执行管道,翘曲调度程序将指令发送到这些管道。例如,结构单元提供执行结构获取和执行结构过滤的功能。加载/存储单元获取数据并将其保存到内存中。了解这些管
阅读全文
摘要:profiler报告包含每次内核启动分析期间收集的所有信息。在用户界面中,它包含一个包含常规信息的标题,以及用于在报告页面或单个收集的启动之间切换的控件。默认情况下,报告以选定的详细信息页面开始。 页眉 页面下拉列表可用于在可用报告页面之间切换,下一节将对此进行详细说明。 探查器报告标头 Launc
阅读全文
摘要:主菜单 文件 新建项目使用“新建项目”对话框创建新的分析项目 4. Main Menu and Toolbar Information on the main menu and toolbar. Main Menu File New Project Create new profiling Proj
阅读全文
摘要:NSight Compute 用户手册(中) NVIDIA Nsight Compute支持密码和私钥身份验证方法。在此对话框中,选择身份验证方法并输入以下信息: 密码 IP/主机名:目标设备的IP地址或主机名。 用户名:用于SSH连接的用户名。 Password:用于SSH连接的用户密码。 端口:
阅读全文
摘要:NSight Compute 用户手册(上) 非交互式配置文件活动 从NVIDIA Nsight Compute启动目标应用程序 启动NVIDIA Nsight Compute时,将出现欢迎页面。单击快速启动打开连接对话框。如果未显示“连接”对话框,则可以使用主工具栏上的“连接”按钮打开它,只要当前
阅读全文
摘要:NVIDIA Nsight Systems CUDA 跟踪 CUDA跟踪 NVIDIA Nsight Systems能够捕获有关在概要过程中执行CUDA的信息。 可以在报告的时间轴上收集和呈现以下信息: CUDAAPI跟踪-跟踪应用程序进行的CUDA运行时和CUDA驱动程序调用。 CUDA运行时调用
阅读全文
摘要:TensorRT Analysis Report 一.介绍 TensorRT是一个高性能的深度学习推理(Inference)优化器,可以为深度学习应用提供低延迟、高吞吐率的部署推理。TensorRT可用于对超大规模数据中心、嵌入式平台或自动驾驶平台进行推理加速。TensorRT现已能支持Tensor
阅读全文
摘要:基于TensorRT优化的Machine Translation 机器翻译系统用于将文本从一种语言翻译成另一种语言。递归神经网络(RNN)是机器翻译中最流行的深度学习解决方案之一。 TensorRT机器翻译示例的一些示例包括: Neural Machine Translation (NMT) Usi
阅读全文
摘要:用TensorRT针对AArch64用户的交叉编译示例 以下介绍如何在x86_64linux下为AArch64 QNX和Linux平台交叉编译TensorRT示例。 2.1. Prerequisites 本节提供分步说明,以确保满足交叉编译的最低要求。 Procedure 1. 为对应的目标安装CU
阅读全文
摘要:Recommenders with TensorRT 推荐系统用于向社交网络、媒体内容消费和电子商务平台的用户提供产品或媒体推荐。基于MLP的神经协作滤波器(NCF)推荐器使用一组完全连接或矩阵乘法层来生成推荐。 TensorRT推荐人示例的一些示例包括: Movie Recommendation
阅读全文
摘要:Technology Document Guide of TensorRT Abstract 本示例支持指南概述了GitHub和产品包中包含的所有受支持的TensorRT 7.2.1示例。TensorRT示例在推荐程序、机器翻译、字符识别、图像分类和对象检测等领域有特殊帮助。 有关TensorRT开
阅读全文
摘要:Python API vs C++ API of TensorRT 本质上,C++ API和Python API应该在支持您的需求方面接近相同。pythonapi的主要优点是数据预处理和后处理都很容易使用,因为您可以使用各种库,如NumPy和SciPy。 在安全性很重要的情况下,例如,在汽车中,C+
阅读全文
摘要:TensorRT PoolingLayer IPoolingLayer在通道中实现池。支持的池类型有maximum、average和maximum average混合。 Layer Description: 2D pooling层描述:二维池 用2D滤波器计算a维张量a上的池,生成B维的张量B。B的
阅读全文
摘要:TensorRT IRNNv2Layer IRNNv2Layer层实现递归层,如递归神经网络(RNN)、门控递归单元(GRU)和长短期记忆(LSTM)。支持的类型有RNN、GRU和LSTM。它执行一个递归操作,其中操作由几个著名的递归神经网络(RNN)“单元”之一定义。 图层说明 该层接受输入序列X
阅读全文
摘要:NVIDIA® TensorRT™ supports different data formats NVIDIA®TensorRT公司™ 支持不同的数据格式。需要考虑两个方面:数据类型和布局。 数据类型格式 数据类型是每个单独值的表示。它的大小决定了值的范围和表示的精度;它们是FP32(32位浮点或
阅读全文
摘要:TensorRT 7.2.1 开发概要(下) 1.2. Where Does TensorRT Fit? 一般来说,开发和部署深度学习模型的工作流要经过三个阶段。 Phase 1 is training Phase 2 is developing a deployment solution, and
阅读全文
摘要:TensorRT 7.2.1 开发概要(上) Abstract 这个TysRR7.2.1开发者指南演示了如何使用C++和Python API来实现最常用的深层学习层。它展示了如何使用深度学习框架构建现有模型,并使用该模型使用提供的解析器构建一个TensorRT引擎。开发指南还提供了常见用户任务的分步
阅读全文
摘要:基于TensorRT的BERT实时自然语言理解(下) BERT Inference with TensorRT 请参阅Python脚本bert_inference.py还有详细的Jupyter notebook BERT_TRT.ipynb在sample文件夹中进行推理过程的逐步描述和演练。在本节中
阅读全文
摘要:基于TensorRT的BERT实时自然语言理解(上) 大规模语言模型(LSLMs)如BERT、GPT-2和XL-Net为许多自然语言理解(NLU)任务带来了最先进的精准飞跃。自2018年10月发布以来,BERT1(来自Transformer的双向编码器表示)仍然是最流行的语言模型之一,并且在编写时仍
阅读全文
摘要:NVIDIA TensorRT高性能深度学习推理 NVIDIA TensorRT™ 是用于高性能深度学习推理的 SDK。此 SDK 包含深度学习推理优化器和运行时环境,可为深度学习推理应用提供低延迟和高吞吐量。 在推理过程中,基于 TensorRT 的应用程序的执行速度可比 CPU 平台的速度快 4
阅读全文