Ashun's Blog

我的学习记录

Ashun's Blog

论文ACNet: Strengthening the Kernel Skeletons for Powerful CNN via Asymmetric Convolution Blocks

作者Xiaohan Ding , Yuchen Gu , Guiguang Ding , Jungong Han

录用情况:ICCV'2019

第一作者单位:Beijing National Research Center for Information Science and Technology (BNRist); School of Software, Tsinghua University, Beijing, China

本文是结构重参数化的第一篇文章,使用1D的卷积来增强方形卷积,并且在推理前进行结构重参数化,用这样的块替换先前的网络架构进行训练,或多多少的都在CIFAR和ImageNet上获得了提升,原因可能是1D卷积对旋转、翻转变换具有更好的鲁棒性以及。网络上已经有很多介绍具体方法的文章(知乎 - 【CNN结构设计】无痛的涨点技巧:ACNet),笔者在这里主要关注论文最后剪裁(pruning)实验,感觉还挺独特的。

阅读全文 »

论文RepVGG: Making VGG-style ConvNets Great Again

作者Xiaohan Ding, Xiangyu Zhang, Ningning Ma, Jungong Han, Guiguang Ding, Jian Sun

录用情况:CVPR'2021

第一作者单位:Beijing National Research Center for Information Science and Technology (BNRist); School of Software, Tsinghua University, Beijing, China

本文借助重参数化技巧,提出了一个在训练时多分支,而在推理时为类似于VGG的直筒形网络(3x3卷积+ReLU堆叠成的基本块),命名为RepVGG。这是第一次一个简单的模型在ImageNet上获得了80%以上的top1准确率,并且直筒形状的结构让RepVGG有着很高的计算密度与推理速度,相比于EfficientNet和RegNet有更好的性能与速度的折中。作者本人在知乎上的稿子代码仓库

阅读全文 »

本文记录在本学期《机器学习及其应用课》上一些印象比较深刻的知识点;大部分在课堂PPT或者相关书籍(周志华《机器学习》,李航《统计学习方法》)上很容易理解的点就不在此赘述了;

笔者水平有限,如果有错误清多多指正;

阅读全文 »

论文:Non-local Neural Networks

作者Xiaolong Wang, Ross Girshick, Abhinav Gupta, Kaiming He

录用情况:CVPR'2018

第一作者单位:Carnegie Mellon University,Facebook AI Research

本文提出的Non-Local是捕获长距离信息的,这篇文章主要在视频分类任务上做实验(Kinetics, Charades),但在静态图像方面,也在COCO上进行了实例分割、检测和姿态估计的实验。

笔者认为,Non-Local在计算attention的方法上有所扩展,并在计算attention之前使用池化方法减小计算量之外,与self-attention没有什么不同的。

当然,在当时的情况下,Self-Attention还在NLP领域内玩,而且作者提出他们的insight来自于一种经典的图像去噪算法Non-local mean

阅读全文 »

论文A ConvNet for the 2020s

作者Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer, Trevor Darrell, Saining Xie;

一作单位:Facebook AI Research, UC Berkeley

录用情况:CVPR'2022

2020年以来,很多多层级的Transformer架构被提出,获得了优异的性能;本文找到一种更加现代的卷积神经网络,能够与Transformer相匹敌;本文的实验显然需要庞大的机器才能完成,但是这些结果给CNN爱好者们一个新的方向,正如题目所说,在2020年代,该如何设计、训练CNN?

阅读全文 »

标题:《SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers

作者:Enze Xie, Wenhai Wang, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo

录用情况:NeurIPS'2021

开源代码:在MMSegmentation中已有实现

这篇文章提出了一个简单高效的语义分割模型,使用了多尺度的Transformer结构做为Encoder,和使用MLP实现的简单的Decoder;在Transformer-Based中,作者没有使用显式的位置编码,而使用CNN建模位置信息;并且还使用了一些策略将attention计算的复杂度从\(O(N^2)\)降低到\(O(N^2/R)\)

本文的很多方法都不是原创,但是在作者的组合、改进下,取得了性能与参数量平衡的结果;

阅读全文 »

Swin Transformer是一种基于位移窗口的多尺度Vision Transformer结构,通过在窗口而非全局上计算自注意力,将与图像分辨率呈平方复杂度的MSA减少到了线性复杂度;窗口位移的技巧又使得窗口之间发生连接,从而随着网络深度的增加,使得每一个窗口的感受野不断增大;类似于CNN层级结构的网络设计让其与各种下游任务能够很好的集成,而Transformer捕获长程信息的特点更让其在dense的任务上有了相比于之前要好得多的表现!本文将介绍我个人对Swin Transformer模型结构的理解。

阅读全文 »

本文是Attention is not all you need: Pure attention loses rank doubly exponentially with depth的阅读笔记,主要贡献为:

  • 提出了一种路径分解(path decomposition)的方式来理解自注意力网络(SA or SANs);
  • 从理论和实验上证明了如果没有skip connections和MLP,纯SANs将随着深度的增加,将以双倍指数的速度退化到一个秩为1的矩阵(重复的token),称为秩坍缩(rank collapse),也可以说SA具有很强的token uniformity的偏执假设;
  • 结合skip-connection的有效性和路径分解的解释,可以将Transformer结构理解为浅层网络的集成;
阅读全文 »

前几日接触到一个新概念,Lipschitz Constant,本文是笔者在Wikipedia上递归搜索归纳的部分数学公里、定义、例子;抽象代数与拓扑几何的部分暂不在本文讨论;笔者不是数学专业,因此逻辑与表达多有不严谨之处,还请多多指正;

阅读全文 »
0%