为有牺牲多壮志,敢教日月换新天。

Apple神经网络引擎详解

热烈欢迎,请直接点击!!!

进入博主App Store主页,下载使用各个作品!!!

注:博主将坚持每月上线一个新app!!

大多数新的 iPhone 和 iPad 都有神经引擎,这是一种特殊的处理器,可以让机器学习模型变得非常快,但对于这种处理器的实际工作原理,公众知之甚少。

Apple 神经引擎(或 ANE)是NPU的一种,代表神经处理单元。它就像 GPU,但不是加速图形,而是 NPU 加速神经网络操作,例如卷积和矩阵乘法。

ANE 并不是唯一的 NPU——除了 Apple 之外,许多公司都在开发自己的 AI 加速器芯片。除了神经引擎,最著名的 NPU 是谷歌的 TPU(或 Tensor Processing Unit)。

为什么有本文章?

当我还在为 iOS 提供 ML 咨询服务时,人们很困惑为什么他们的模型似乎没有在神经引擎上运行,或者为什么当 ANE 应该是方式时它却如此缓慢比GPU快...

事实证明,并不是每个 Core ML 模型都能充分利用 ANE原因可能很复杂,因此本文档试图回答最常见的问题。

ANE 非常适合让 ML 模型在 iPhone 和 iPad 上运行得非常快。针对 ANE 优化的模型将大大优于 CPU 和 GPU。但 ANE 也有局限性。不幸的是,Apple 没有就如何优化他们的模型以利用 ANE 向第三方开发人员提供任何指导。这主要是一个反复试验的过程,以确定哪些有效,哪些无效。

1、哪些设备有 ANE?

A11仿生

第一个神经引擎。它有 2 个内核,每秒可以执行高达 6000 亿次操作。但是,Core ML 不能使用这个版本的神经引擎。它仅用于 Face ID 和 Animoji 等任务。

设备:

  • iPhone 8 (2017)
  • iPhone 8 Plus (2017)
  • iPhone X (2017)

A12 仿生

神经引擎的第二代,但 Core ML 可以使用的第一个版本(在 iOS 12 及更高版本上)。

这个 ANE 有 8 个内核,每秒可以执行高达 5 万亿次操作。Apple 声称 A12 上的 Core ML 比 A11 快 9 倍,能耗仅为 A11 的 1/10。

设备:

  • iPhone XS (2018)
  • iPhone XS Max (2018)
  • iPhone XR (2018)
  • iPad(第 8 代,2020 年)
  • iPad Air(第三代,2019 年)
  • iPad Mini(第 5 代,2019 年)

A12X 仿生

它具有与 A12 相同的神经引擎。

设备:

  • 11 英寸 iPad Pro(第一代,2018 年)
  • iPad Pro 12.9 英寸(第三代,2018 年)

A12Z 仿生

它具有与 A12X 和 A12 相同的神经引擎。

设备:

  • iPad Pro 11 英寸(第 2 代,2020 年)
  • iPad Pro 12.9 英寸(第 4 代,2020 年)

A13 仿生

这款神经引擎有 8 个内核,比 A12 快 20%,功耗低 15%。

设备:

  • iPhone 11 (2019)
  • iPhone 11 专业版(2019 年)
  • iPhone 11 Pro Max (2019)
  • iPhone SE(第 2 代,2020 年)
  • iPad(第 9 代,2021 年)

A13 中的 CPU 还拥有自己的机器学习加速器(AMX 模块),其矩阵乘法运算速度比 A12 的 CPU 快 6 倍。

A14 仿生

A14 拥有 16 核神经引擎,速度是上一代的两倍,每秒可以执行 11 万亿次运算。

设备:

  • iPad 空气 (2020)
  • iPhone 12 (2020)
  • iPhone 12 迷你版(2020 年)
  • iPhone 12 专业版(2020 年)
  • iPhone 12 Pro Max (2020)

A14 还具有第二代“AMX 模块”,用于加速 CPU 上的机器学习操作(矩阵乘法)。

M1

M1 中的神经引擎有 16 个核心,每秒可以执行高达 11 万亿次操作。它是 macOS 设备上第一个可用的神经引擎。

这很可能与 A14 Bionic 中的神经引擎相同。

设备:

  • MacBook Air (2020)
  • 配备两个雷雳 3 端口的 MacBook Pro 13" (2020)
  • Mac mini (2020)
  • 11 英寸 iPad Pro(第三代,2021 年)
  • iPad Pro 12.9 英寸(第 5 代,2021 年)

神经引擎在基于 Intel 的 Mac 上不可用,仅在带有 Apple Silicon 的 Mac 上可用。

A15 仿生

A15 拥有 16 核神经引擎,在相同数量的内核下,它每秒可以执行 15.8 万亿次操作(比上一代快 43%)。

设备:

  • iPad Mini(第 6 代,2021 年)
  • iPhone 13 (2021)
  • iPhone 13 迷你版(2021 年)
  • iPhone 13 专业版(2021 年)
  • iPhone 13 Pro Max (2021)

最近没有神经引擎的设备

需要注意的是,并非所有新设备都有神经引擎。A10 芯片组没有 ANE,但仍在某些设备中使用。

配备 A10 Fusion 的设备:

  • iPhone 7、7 Plus(2016 年)
  • iPad(第 6 代,2018 年)
  • iPad(第 7 代,2019 年)
  • iPod touch(第 7 代,2019 年)

配备 A10X Fusion 的设备:

  • iPad Pro 10.5 英寸(2017 年)
  • iPad Pro 12.9 英寸(第 2 代,2017 年)
  • Apple TV 4K(第 5 代,2017 年)

2016 年以前的设备显然没有神经引擎。

目前没有带 ANE 的 Apple Watch。

基于 Intel 的 Mac 没有 ANE。

2、我为什么要关心 ANE?

比 CPU 或 GPU快得多!而且它更节能

例如,在实时视频上运行模型时,ANE 不会使手机变热,并且电池消耗的速度也大大降低。用户会欣赏的。

在 ANE 上运行模型将使 GPU 腾出时间来执行图形任务,并腾出 CPU 来运行应用程序的其余部分。

考虑一下:许多现代神经网络架构实际上在 CPU 上比在 GPU 上运行得更快(使用 Core ML 时)。那是因为 iPhone 的 CPU 速度非常快!另外,调度任务在 GPU 上运行总是有一定的开销,这可能会抵消任何速度提升。

鉴于这些事实,您应该在 CPU 上而不是在 GPU 上运行您的神经网络吗?好吧,可能不会——你需要 CPU 来处理 UI 事件、处理网络请求等等……它已经够忙了。最好将这项工作交给 GPU 等并行处理器,甚至更好的是 ANE。

并非所有模型都可以在 ANE 上运行,因为并非所有类型的层都受支持。但是,如果您有一个可以在 ANE 上运行的模型,那么您应该更喜欢它,而不是具有该模型的设备上的 GPU 或 CPU。

如果您的模型由于某种原因无法在 ANE 上运行怎么办?无论如何,有可能调整模型以使其与 ANE 兼容。请参阅此 repo 中的其他页面以获取帮助的提示。

3、如何让我的模型在 ANE 上运行?

Core ML 将尽可能尝试在 ANE 上运行您的模型,但您不能强制Core ML 使用 ANE。

创建 Core ML 模型的实例时,您可以传入一个MLModelConfiguration对象:

let config = MLModelConfiguration()
config.computeUnits = .all

let model = try MyModel(configuration: config)

要允许模型在 ANE 上运行,请使用computeUnits = .all.

请注意,这并不能保证模型将在 ANE 上运行,它只是告诉 Core ML 如果可用,您更喜欢使用 ANE。如果设备没有 ANE,Core ML 会自动回退到 GPU 或 CPU。

如果可能,Core ML 将在 ANE 上运行整个模型。但是,它会在遇到不受支持的层时切换到另一个处理器。即使 Core ML 理论上可以在 GPU 上运行模型的第二部分,它实际上也可能决定使用 CPU。你不能在这里假设任何事情。(请注意,在许多神经网络操作上,CPU 实际上可以比 GPU 更快,所以这不一定是坏事。) 

4、如何防止我的模型在 ANE 上运行?

按如下方式实例化您的模型:

let config = MLModelConfiguration()
config.computeUnits = .cpuAndGPU

let model = try MyModel(configuration: config)

这告诉 Core ML 它只能使用 CPU 或 GPU,而不能使用 ANE。

computeUnits = .cpuOnly如果您不想使用 GPU,但始终强制模型在 CPU 上运行,也可以使用。

为什么需要阻止 Core ML 使用 ANE?也许您正在尝试同时运行多个模型,并且希望其中一个使用 ANE,而其他模型使用 GPU 和 CPU。但大多数时候我需要使用这个功能是因为 Core ML 中的错误——当你尝试在 ANE 上运行某些模型但在 GPU 或 CPU 上运行良好时,它们会出现奇怪的错误。

5、我的模型是否使用 ANE?

即使您可以MLModelConfiguration告诉 Core ML 您对使用 CPU / GPU / ANE 的偏好是什么,但没有 API 可以在运行时询问它当前在哪个硬件上运行模型。

Core ML 还可以将您的模型分成多个部分,并使用不同的处理器运行每个部分。因此它可能在同一个推理过程中同时使用 ANE和CPU 或 GPU。

H11ANEServicesThread

当您的应用程序在设备上运行时,按下调试器中的暂停按钮。如果有一个名为H11ANEServicesThread的线程,那么 Core ML 至少在模型的某些部分使用了神经引擎。

尝试computeUnits

ChangeMLModelConfigurationcomputeUnits选项从.all.cpuAndGPU.cpuOnly

如果你的模型的性能.all并不比其他选项快多少,Core ML 可能只对模型的一部分使用 ANE——或者根本不使用。

断点

确定哪个处理器 Core ML 正在运行模型的一种方法是设置一个符号断点并放入调试器。

想知道您的模型是否在 ANE 上运行?设置一个断点-[_ANEModel program](重要:拼写完全一样,前面有破折号。)如果这个断点被击中,Core ML 正在使用 ANE。

但是...... Core ML 可能决定在 ANE 上运行您的模型的一部分,而在 GPU 或 CPU 上运行其余部分。仅仅因为您的应用程序成功-[_ANEModel program]并不意味着整个模型都在 ANE 上运行。为了确保,您需要设置其他几个断点。

Core ML 使用在私有 Espresso 框架中实现的三种不同“引擎”:

ANE — Espresso::ANERuntimeEngine
GPU — Espresso::MPSEngine and Espresso::MetalLowmemEngine
CPU — Espresso::BNNSEngine

运行模型时,它可以在这些引擎之间切换。通过查看调试器的堆栈跟踪中出现的引擎名称,您可以看到当前正在使用哪个引擎/处理器。

要确定模型(也)是否在 GPU 或 CPU 上运行,可以使用以下符号断点:

  • Espresso::MPSEngine::context::__launch_kernel
  • Espresso::BNNSEngine::convolution_kernel::__launch
  • Espresso::elementwise_kernel_cpu::__launch

寻找哪些符号?

上述符号可能会在 iOS 版本之间发生变化。要查找可用于断点的其他可能符号,请在设备或模拟器上运行您的应用程序并进入调试器。在调试器提示符处键入以下内容:

(lldb) image list Espresso

这将打印私有 Espresso 框架的路径,如下所示(在您的机器上会有所不同):

/Users/matthijs/Library/Developer/Xcode/iOS DeviceSupport/13.3 (17C54) arm64e/Symbols/System/Library/PrivateFrameworks/Espresso.framework/Espresso

接下来,执行以下操作:

(lldb) image dump symtab 'put-the-path-here'

这会从 Espresso 框架中转储整个符号表。您应该能够在其中找到一些有趣的符号。:-)

如果所有其他方法都失败,请使用以下断点之一并使用调试器手动单步执行代码:

  • Espresso::layer::__launch
  • Espresso::net::__forward

如果你最终得到一个函数,例如Espresso::elementwise_kernel_cpu::__launch,这是一个很好的提示,表明你现在正在 CPU 上运行。

仪器时间分析器

如果您不确定要设置哪些断点,或者您想了解模型不同部分的速度有多快,请使用Time Profiler工具运行您的应用程序。

我建议制作一个新的空应用程序。循环调用您的 Core ML 模型 100 次左右。

使用 Time Profiler 模板在 Instruments 中运行应用程序并打开调用树。

提示:按住 Option 键单击项目可展开其下方的所有内容。这将为您节省大量点击。

找到符号-[MLNeuralNetworkEngine predictionFromFeatures:...]右键单击它,选择Focus on subtree

现在您将看到在模型执行期间被调用的所有函数,以及它们相对占用的时间。这些函数的名称将为模型的执行位置提供很好的线索,您也可以将它们用作断点。

使用 ANE 时,还会调用-[_ANEClient evaluateWithModel...]这似乎可以衡量在 ANE 上运行模型所需的时间。

6、我可以直接对 ANE 进行编程吗?

不幸的是没有。目前你只能通过 Core ML 使用神经引擎。

目前没有用于对 ANE 进行编程的公共框架。有几个私有的、未记录的框架,但显然我们不能使用它们,因为 Apple 拒绝使用私有框架的应用程序。

(也许将来苹果会提供AppleNeuralEngine.framework的公共版本。)

7、ANE和GPU不一样吗?

ANE 和 GPU 是两个独立的处理器。它们与 CPU 内核一起位于同一个裸片上,但它们是不同的东西。

这是 A12 Bionic 的外观(图片来自anandtech.com 和 TechInsights)。如您所见,ANE(此处标记为 NPU)和 GPU 内核是芯片上的独立区域。

A12 模具

要对 GPU 进行编程,您需要使用Apple 的 GPU 编程语言Metal除了图形着色器,Metal 还允许您编写计算着色器。

iOS 和 macOS 都提供Metal Performance Shaders (MPS),这是一个为许多图像处理任务预先构建着色器的框架。MPS 还具有用于神经网络操作(例如卷积)的计算着色器。事实上,当 Core ML 在 GPU 上运行您的模型时,它在后台使用 MPS。

Metal 不能用于对 ANE 进行编程,它专门用于 GPU。目前没有用于直接对 ANE 进行编程的公共框架。

Core ML 为不同的处理器使用以下框架:

  • CPU: BNNS,或 Basic Neural Network Subroutines,Accelerate.framework 的一部分
  • GPU:金属性能着色器 (MPS)
  • ANE:私有框架

Core ML 可以拆分模型,以便一部分在 ANE 上运行,另一部分在 GPU 或 CPU 上运行。当它这样做时,它会在这些不同的框架之间切换。

iPhone、iPad 和 Apple Silicon Mac 具有共享内存,这意味着 CPU、GPU 和 ANE 都使用相同的 RAM。共享内存的优点是您不需要将数据从一个处理器上传到另一个处理器。但这并不意味着在处理器之间切换没有成本:数据仍然需要转换成合适的格式。例如,在 GPU 上,需要首先将数据放入纹理对象中。

在基于 Intel 的 Mac 上,GPU 可能有自己的 RAM(通常称为 VRAM)。

8、ANE 是 16 位的吗?

看起来是这样。

当您在 CPU 上运行 Core ML 模型时,它使用 float32 进行所有计算并存储中间张量。(从 iOS 14 和 macOS 11 开始,Core ML 也可以在 CPU 上使用 float16。)

在 GPU 上,它使用 float16 作为权重和中间张量,但使用 float32 进行计算。allowLowPrecisionAccumulationOnGPU您可以使用from选项将其关闭MLModelConfiguration,在这种情况下,GPU 也使用 float16 进行计算。这有点快,但您可能会失去精度。

ANE 似乎对所有内容都使用 float16。这意味着,如果您的模型具有相对较大 ( > 1e2) 或相对较小 ( < 1e-4) 的激活,您将失去精度。或者更糟糕的是,模型实际上可能根本无法正常工作——即非常小的数字变成了 0。

多精度

苹果声称 A12 Bionic 中的 ANE 具有“多精度”支持。这也称为可变精度。

TODO:看看这实际上意味着什么。

量化操作

Core ML 支持使用 8 位或更小的整数来量化权重。但是,这似乎只是为了将权重存储在 mlmodel 文件中。理论上,NPU 可以直接使用量化权重执行卷积等操作,但目前没有证据表明 ANE 可以这样做。

从 iOS 14 和 macOS 11 开始,Core ML 确实支持 8 位操作,但仅支持矩阵乘法层,不支持卷积层或其他操作。不知道这样的 8 位操作实际上是在 ANE 上执行还是仅在 CPU 上执行。

9、ANE 不支持哪些 Core ML 层?

警告!此处提供的信息不完整,可能是错误的。它甚至可能在不同版本的 ANE 之间有所不同。在调试机器学习模型的性能问题时,请将此作为起点,但不要将其视为福音。如果您知道此处未解释的内容,或者您​​发现信息有误或缺失,请提出问题提出拉取请求谢谢!

Core ML 不会在 ANE 上运行模型的主要原因是模型包含某些层类型。

Core ML 可能会在 ANE 上运行模型的第一部分,然后切换到 GPU(或 CPU)来运行模型的其余部分。从理论上讲,它可以进行多个这样的切换,但是设备之间的每次切换都会产生开销。

如果您的模型S → U → S → U → S → U中 S 是受支持的层而 U 是不受支持的层,Core ML 可能只会做ANE → GPU一次,而不是ANE → GPU → ANE → GPU → etc然而,ANE → CPU → ANE → CPU → etc似乎确实会发生,因为在 ANE 和 CPU 之间切换比在 ANE 和 GPU 之间切换更便宜。

也就是说,Core ML 主要是一个黑盒子我们不了解 Core ML 如何决定在哪个处理器上运行模型的哪个部分。找出答案的唯一方法是设置一些断点并尝试一下。

提示:如果您的模型只有一两层不受 ANE 支持,那么明智的做法是编辑 mlmodel 文件并将这些层替换为可在 ANE上工作的替代层。在 ANE 上运行整个模型将使您的模型更快、更节能。

有问题的层

此列表绝不是详尽无遗的,但已知以下层类型不适用于 ANE:

  • 自定义图层
  • RNN 层,例如 LSTM 或 GRU
  • 收集
  • 空洞卷积
  • 可广播和“ND”层
  • 某些广播操作(例如乘以CxHxWCx1x1张量)
  • 池化内核大小大于 13 或步幅大于 2 的层
  • 缩放因子大于 2 的上采样

注意:其中一些是猜测。很难说 Core ML 到底是什么,最多有一半的时间。

可广播层

Core ML 3添加了许多支持广播的新层,例如:

  • AddBroadcastableLayer
  • DivideBroadcastableLayer
  • MultiplyBroadcastableLayer
  • SubtractBroadcastableLayer
  • 和其他一些...

还有一些名称中带有“ND”的新层,表示它们可以在任何等级的张量上运行:

  • ConcatNDLayer
  • SplitNDLayer
  • LoadConstantNDLayer
  • 等等...

这些层不会在 ANE 上运行。当遇到这种“可广播”或“ND”层类型时,Core ML 会回退到 CPU 或 GPU。

好消息是:大多数时候您实际上并不需要这些新的图层类型!当您的张量没有通常的(batch, channels, height, width)形状时,它们最有用。

您通常可以用 Core ML 2 中较旧的层类型替换这些可广播层。这些仍然允许有限数量的广播。他们大多在 ANE 上工作得很好。

问题是 coremltools 4 的新转换器倾向于更喜欢这些新的可广播层。当您使用参数时,对于旧转换器也是如此minimum_ios_deployment_target='13'

发生这种情况时,您的模型无法在 ANE 上运行,您可以执行一些模型手术并将这些层替换为旧版本:

  • AddBroadcastableLayerAddLayer
  • MultiplyBroadcastableLayerMultiplyLayerScaleLayer或 线性Activation
  • ConcatNDConcat
  • 等等...

例如,您可以LoadConstantND使用较旧的LoadConstant层进行替换。旧版本仅支持 3 阶张量,因此如果您的张量使用更多维度,您可能必须将其中一些维度变平。这是否可能取决于您的模型的架构。

可能并不总是有兼容的旧式层可用——例如,没有SubtractLayer可以替代的层SubtractBroadcastableLayer——因此您可能需要聪明并引入额外的层作为解决方法(例如,使用线性激活层否定张量的内容alpha = -1,后跟AddLayer)。

自定义图层

自定义层允许您向 Core ML 添加新功能。但是有一个缺点:你只能提供一个 CPU 和 GPU 的实现。因为没有用于对 ANE 进行编程的公共 API ,所以自定义层无法在 ANE 上运行。

如果自定义层出现在模型的末尾附近,则将模型分成两部分并一个接一个地运行它们可能是有意义的。第一部分可以使用 ANE,而其中包含自定义层的第二部分将使用 CPU 或 GPU。这可能比在 CPU 或 GPU 上运行整个东西要快。

起作用的图层

  • 上采样:最近我使用了一个模型,其中上采样层似乎在 ANE 上运行得很好(Core ML 也有一个Espresso::ANERuntimeEngine::upsample_kernel),所以我猜这些确实有效。

  • 反卷积 

10、使用 os_log 查看警告/错误消息

Core ML 可能会向控制台打印一条错误消息,例如“[coreml] 计算 NN 输出错误 -1”或“错误计划构建:-1”。不幸的是,此类消息对于诊断导致错误的原因并不是很有帮助。

要获得更多有用的消息,请使用 os_log 工具在 Instruments 中运行您的应用程序。Core ML 将在此处打印更多信息。

这对于确定 ANE 是否支持模型中的所有层也很有用。如果没有,Core ML 可能会打印一条关于它的消息。

您还可以从您的设备下载日志并进行检查。例如,要下载最近 1 天 ( 1d) 的日志:

$ sudo log collect --device --last 1d

这将创建一个文件夹system_logs.logarchive您可以双击它在控制台应用程序中打开它,然后搜索coremlespresso

使用命令行:

$ log show --archive system_logs.logarchive --predicate '(subsystem IN {"com.apple.espresso","com.apple.coreml"}) && (category IN {"espresso","coreml"})' --info --debug --last 1d

日志将显示<private>模型及其层的名称,但您可以通过在 Mac 上安装设备配置文件来解决此问题。

如果您在 Mac 上运行 Core ML,您可以使用log stream实时查看与 Core ML 相关的日志消息:

$ log stream --predicate '(subsystem IN {"com.apple.espresso","com.apple.coreml"}) && (category IN {"espresso","coreml"})' --info --debug
11、如何替换不支持的图层

这是一个简单的脚本,可让您addBroadcastable用普通的旧图层替换add图层。

可广播版本是在 Core ML 3 中引入的,功能更强大,但并不总是适用于 ANE。在大多数情况下,旧add层执行等效操作(它在一定程度上也支持广播)并与 ANE 兼容。

import coremltools

model = coremltools.models.MLModel("YourModel.mlmodel")
spec = model._spec
nn = spec.neuralNetwork

# NOTE: If your model is a classifier, use the following:
# nn = spec.neuralNetworkClassifier

for layer in nn.layers:
    if layer.WhichOneof("layer") == "addBroadcastable":
        layer.add.MergeFromString(b"")

new_model = coremltools.models.MLModel(spec)
new_model.save("YourNewModel.mlmodel")
12、ANE 如何在内部工作?

好问题!我认为 Apple 以外的任何人都不知道,但其他 NPU 似乎主要专注于真正有效地进行矩阵乘法,因此假设 ANE 相似是合理的。

同时,请查看TPU 的这些 解释,以了解 Google 是如何做到的。

另请查看 NVIDIA 的张量核心

Google Pixel 4 的神经核心是什么? 

13、其他奇怪的问题

我或其他人看到的东西(轶事证据):

  • 使用将其权重存储为 16 位浮点数的 mlmodel 文件似乎比使用 32 位浮点数的模型慢。在 GPU 上这没有什么区别,因为它总是将权重转换为 16 位浮点数,但神经引擎似乎很难解决这个问题。(我不是 100% 确定这里发生了什么。)

  • A12 及更高版本的处理器具有“智能计算系统”,可确定任务应在 CPU、GPU 还是 ANE 上运行。因此,即使模型可以毫无问题地在 ANE 上运行,Core ML 仍可能决定在其他地方运行它,这取决于系统在做什么。来自推特:“我们还发现,如果 NPU 支持模型的所有层并且 GPU 处于休眠状态,CoreML 很有可能会在 GPU 上运行它。但如果 GPU 的工作负载很重 - 你可以期望模型在 NPU 上运行。”

  • 即使您模型中的所有层都与 ANE 兼容,Core ML 仍可能决定在 GPU 上运行您的模型。如果您相信这种情况正在发生,请将您的模型分成两部分,看看第一部分会发生什么。现在可以在 ANE 上运行吗?我见过这样的情况,一旦模型变得大于某个大小,Core ML 可能会决定 GPU 更合适,即使模型可以完全在 ANE 上运行。 

14、对 ANE 进行逆向工程

目前没有用于使用 ANE 的公共 API,但 Core ML 使用了私有框架。通过查看这些私有框架,可以弄清楚 ANE 是如何工作的——或者至少是如何与它对话的。

geohot在 tinygrad repo 中发布了一些初步结果。

 
posted @ 2022-03-04 10:27  为敢技术  阅读(7835)  评论(0编辑  收藏  举报