高效变压器
2022年6月2日??李,?袁庚?杨雯?埃里克·胡?圣乔治福音派教徒?谢尔盖·图利亚科夫?王延志?建仁??编辑社交预览
/快照-研究/效率模型
视觉变形器(ViT)在计算机视觉任务中表现出快速的进步,在各种基准测试中取得了令人鼓舞的结果。然而,由于大量的参数和模型设计,例如注意机制,基于ViT的模型通常比轻量级卷积网络慢几倍。因此,为实时应用部署ViT尤其具有挑战性,尤其是在移动设备等资源受限的硬件上。最近的努力试图通过网络体系结构搜索或与MobileNet块的混合设计来降低ViT的计算复杂度,但是推理速度仍然不令人满意。这就引出了一个重要的问题:在获得高性能的同时,变压器能否像MobileNet一样快速运行?为了回答这个问题,我们首先回顾一下基于ViT的模型中使用的网络架构和运营商,并找出低效的设计。然后我们引入一个尺寸一致的纯变压器(没有MobileNet模块)作为设计范例。最后,我们执行延迟驱动的瘦身,以获得一系列被称为EfficientFormer的最终模型。大量实验表明了EfficientForm er在移动设备上的性能和速度上的优越性。我们最快的模型EfficientFormer-L1在ImageNet-1K上实现了79.2%的top-1准确性,在iPhone 12(用CoreML编译)上只有1.6毫秒的推理延迟,甚至比MobileNetV2 (1.7毫秒,71.8% top-1)和我们最大的模型efficient我们的工作证明,适当设计的变压器可以在移动设备上达到极低的延迟,同时保持高性能
视觉转换器(ViT)在计算机视觉任务方面取得了快速进展,并在各种基准测试中取得了令人鼓舞的结果。然而,由于大量的参数和模型设计,如注意机制,基于ViT的模型通常比轻量级卷积网络慢几倍。因此,为实时应用程序部署ViT尤其具有挑战性,尤其是在资源有限的硬件上,比如移动设备。近年来,人们试图通过网络架构搜索或与MobileNet块混合设计来降低ViT的计算复杂度,但推理速度仍不尽如人意。这就引出了一个重要的问题:转换器能否像MobileNet一样快速运行,同时获得高性能?为了回答这个问题,我们首先回顾基于ViT的模型中使用的网络架构和运营商,并确定低效的设计。然后,我们引入一个具有一致维度的纯转换器(没有MobileNet块)作为设计示例。最后,我们执行延迟驱动的瘦身以获得一系列称为EfficientFormer的最终模型。在移动设备上的大量实验表明,EfficientFormer在性能和速度上具有优势。我们最快的模型EfficientFormer-L1在ImageNet-1K上达到了top-1的79.2%的准确率,而在iPhone 12(CoreML编译)上推理延迟只有1.6 ms,甚至高于MobileTV 2 (1)。我们最大的型号EfficientFormer-L7实现了83.3%的精度,延迟仅为7.0 ms。我们的工作证明,设计合理的转换器可以在移动设备上实现极低的延迟,同时保持高性能。