FP8

使用FP8加速PyTorch训练

现代的人工智能硬件架构(例如，Nvidia Hopper, Nvidia Ada Lovelace和Habana Gaudi2)中，FP8张量内核能够显著提高每秒浮点运算(FLOPS)，以及为人工智能训练和推理工作负载提供内存优化和节能的机会。在这篇文章中，我们将介绍如何修改PyTorch训练脚本 ......

PyTorch FP8 FP更新时间 2023-11-17

使用Unit Scaling进行FP16 和 FP8 训练

Unit Scaling 是一种新的低精度机器学习方法，能够在没有损失缩放的情况下训练 FP16 和 FP8 中的语言模型。使用FP16和BFLOAT16替代FP32可以将内存、带宽和计算需求的大幅减少，这也是目前越来越大的模型所需要的。背景介绍随着支持fp8的硬件的发展，在不影响效率的前提下 ......

Scaling Unit FP FP8 16更新时间 2023-03-31

共2篇 :1/1页 首页上一页1下一页尾页

526互联

FP8

使用FP8加速PyTorch训练

使用Unit Scaling进行FP16 和 FP8 训练