摘要: DeiT 是一个全 Transformer 的架构。其核心是提出了针对 ViT 的教师-学生蒸馏训练策略,并提出了 token-based distillation 方法,使得 Transformer 在视觉领域训练得又快又好。 阅读全文
posted @ 2022-07-20 00:17 ZOMI酱酱 阅读(44) 评论(0) 推荐(0) 编辑
摘要: 何凯明从 CVPR 2020 上发表的 MoCo V1(Momentum Contrast for Unsupervised Visual Representation Learning),到前几天挂在arxiv上面的 MoCo V3(An Empirical Study of Training Self-Supervised Visual Transformers),MoCo一共走过了三个版本。今天介绍 MoCo 系列第三版,MoCo v1 和 v2 是针对 CNN 设计的,而 MoCo v3 是针对 Transformer 结构设计的,反映了 MoCo 系列对视觉模型的普适性。 阅读全文
posted @ 2022-07-18 22:17 ZOMI酱酱 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 何凯明从 CVPR 2020 上发表的 MoCo V1(Momentum Contrast for Unsupervised Visual Representation Learning),到前几天挂在arxiv上面的 MoCo V3(An Empirical Study of Training Self-Supervised Visual Transformers),MoCo一共走过了三个版本。今天介绍 MoCo 系列第二版 MoCo v2 就是在 SimCLR 发表后结合了 SimCLR 优点的图像自监督学习方法,MoCo v1 和 v2 是针对 CNN 设计的,而 MoCo v3 是针对 Transformer 结构设计的,反映了 MoCo 系列对视觉模型的普适性。 阅读全文
posted @ 2022-07-18 22:14 ZOMI酱酱 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 何凯明从 CVPR 2020 上发表的 MoCo V1(Momentum Contrast for Unsupervised Visual Representation Learning),到前几天挂在arxiv上面的 MoCo V3(An Empirical Study of Training Self-Supervised Visual Transformers),MoCo一共走过了三个版本。今天介绍 MoCo 系列第一版 MoCo v1 就是在 SimCLR 发表前经典的图像自监督学习方法,MoCo v1 和 v2 是针对 CNN 设计的,而 MoCo v3 是针对 Transformer 结构设计的,反映了 MoCo 系列对视觉模型的普适性。 阅读全文
posted @ 2022-07-18 22:11 ZOMI酱酱 阅读(86) 评论(0) 推荐(0) 编辑
摘要: 前向操作符重载自动微分实现 在这篇文章里,ZOMI会介绍是怎么实现自动微分的,因为代码量非常小,也许你也可以写一个玩玩。前面的文章当中,已经把自动微分的原理深入浅出的讲了一下,也引用了非常多的论文。有兴趣的可以顺着综述A survey这篇深扒一下。 【自动微分原理】01. 原理介绍 【自动微分原理】 阅读全文
posted @ 2022-05-26 19:58 ZOMI酱酱 阅读(92) 评论(0) 推荐(0) 编辑
摘要: 第一篇自动微分原理文章中我们大概初步谈了谈从手动微分到自动微分的过程,第二篇自动微分正反模式中深入了自动微分的正反向模式具体公式和推导。 实际上第二章了解到正反向模式只是自动微分的原理模式,在实际代码实现的过程,正方向模式只是提供一个原理性的指导,在真正编码过程会有很多细节需要打开,例如如何解析表达 阅读全文
posted @ 2022-05-26 09:29 ZOMI酱酱 阅读(282) 评论(0) 推荐(0) 编辑
摘要: 自动微分的两种模式 上一篇文章我们简单了解了计算机中常用的几种微分方式。 本章将深入介绍AI框架离不开的核心功能自动微分,而自动微分则是分为前向微分和后向微分两种实现模式,不同的实现模式有不同的机制和计算逻辑,而无论哪种模式都离不开雅克比矩阵,所以我们也会深入了解一下雅克比矩阵的原理。 雅克比矩阵 阅读全文
posted @ 2022-05-22 20:27 ZOMI酱酱 阅读(98) 评论(0) 推荐(0) 编辑
摘要: 自动微分原理 自动微分(Automatic Differentiation,AD)是一种对计算机程序进行高效准确求导的技术,一直被广泛应用于计算流体力学、大气科学、工业设计仿真优化等领域。而近年来,机器学习技术的兴起也驱动着对自动微分技术的研究进入一个新的阶段。随着自动微分和其他微分技术研究的深入, 阅读全文
posted @ 2022-05-22 15:03 ZOMI酱酱 阅读(249) 评论(0) 推荐(1) 编辑
摘要: Vision Transformer(ViT)简介 近些年,随着基于自注意(Self-Attention)结构的模型的发展,特别是Transformer模型的提出,极大的促进了自然语言处理模型的发展。由于Transformers的计算效率和可扩展性,它已经能够训练具有超过100B参数的空前规模的模型 阅读全文
posted @ 2022-05-13 13:18 ZOMI酱酱 阅读(34) 评论(0) 推荐(1) 编辑
摘要: 模型压缩明珠:二值化网络 二值化网络跟低比特量化一样,目的是让模型更小,小到有着最为极端的压缩率和极低的计算量。那什么是二值呢?二值指的是仅仅使用+1和-1(或者是0和1)两个值,来表示权重和激活的神经网络。相比于全精度(FP32)表示的神经网络,二值化可以用XNOR(逻辑电路中的异或非门)或者是简单的计数操作(pop Count),极其简单的组合来代替FP32的乘和累加等复杂的运算来实现卷积操作,从而节省了大量的内存和计算,大大方便了模型在资源受限设备上的部署。 阅读全文
posted @ 2022-01-14 09:13 ZOMI酱酱 阅读(288) 评论(0) 推荐(0) 编辑