2021-ICLR-An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale 1. 摘要 这篇文章[1]主要提出如何将 Transformer 用在计算机视学领域(即 ViT, Vision Transformer),用一句话概率就是这篇文章的标题:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale,即将图像划分成许多 16×1616 \times 1616×16 的 patc 2022-05-03 Research Transformer Research Transformer
2022-CVPR-Swin Transformer:Hierarchical Vision Transformer using Shifted Windows 1. 摘要 这篇文章[1]主要提出了一种用于 CV 任务的 Swin Transformer,它是一种使用了移动窗口的层级式 ViT。其主要思想就是借鉴于 CNN,作者想让 Transformer 能像 CNN 一样,通过层级式的特征提出从而使得提取出的特征有多尺度的概念。 作者一开始提到,Transformer 的确具有强大的能力,但直接将其用于 CV 任务存在两个问题。一个是图像中物体尺寸的问 2022-05-03 Research Transformer Research Transformer
2014-NIPS-Generative Adversarial Nets 1. 摘要 这篇文章[1]主要提出了一种新的估计生成模型的方法:即同时训练两个模型 GGG 和 DDD,其中生成模型 GGG 用来捕获数据分布,鉴别模型 DDD 用来估计样本是来自于真实数据还是由生成模型产生的概率(也即尽可能区分开真实样本和 GGG 生成的样本)。训练 GGG 是通过最大化 DDD 犯错的概率来进行优化的,而训练 DDD 则是通过最小化样本分类损失来进行优化的。以博弈论的角度来看 2022-05-01 Research GAN Research GAN
2017-NIPS-Attention Is All You Need 1. 摘要 这篇文章[1]主要提出了一种新的序列转录神经网络结构:Transformer。在主流的序列转录模型中,往往都是使用编码器+解码器并配合注意力机制,Transformer 也是如此。与以前的主流序列转录模型相比,Transformer 完全没有使用 RNN 和 CNN。在两项机器翻译任务上,Transformer 显示出了强大的性能。 2. 动机 RNN 是经典的处理序列数据的模型,然而 2022-05-01 Research Transformer Research Transformer
2018-ICLR-Variational image compression with a scale Hyper-prior 1. 摘要 这篇文章[1]在上一篇文章[2]基础上增加了一个超先验模块,用来有效地捕获隐变量空间的空间依赖信息。这个超先验可以看作是边信息,使用边信息作为先验来辅助压缩在很多标准的图像压缩算法中都广泛使用,但在基于神经网络的压缩算法中还没有得到研究。因此,作者提出了一个超先验模块,和用于压缩的 AutoEncoder 进行联合训练。作者在文章中展示了其提出方法达到了 SOTA 的性能,同时还对比了 2022-04-30 Research ImageCompression VAE Research ImageCompression VAE
2016-CVPR-Deep Residual Learning for Image Recognition 1. 简介 这篇文章[1]主要思想是将 shortcut 用在了神经网络模型中,从而在一定程度上缓解了深度神经网络训不动的问题(即网络深到一定程度反而性能下降)。shortcut 在 202020 年前的神经网络热潮中就被提出来了,作者从新将其用在了深度神经网络中,发现性能很好。 2. 框架 3. 实验 可以看到,加入 shortcut 后,34 层的网络在训练误差和测试误差上都要小于 1 2022-04-26 Research ResNet Research ResNet
神经网络相关指标 在神经网络中,假设: 卷积层的大小用 kh×kw×kckh \times kw \times kckh×kw×kc 表示; 指标 计算公式 FLOPs (卷积核高×\times×卷积) 2022-04-26 Research Assessory Research Assessory
2021-Arxiv-Learning Transferable Visual Models From Natural Language Supervision 1. 简介 这篇文章[1]的主要想法是,对自然语言特征和图像特征进行对比学习,训练得到对应的文本和图像编码器,然后使用预训练好的成对的编码器去做各种各样的下游任务。以图像分类任务为例: 在训练阶段,对每个图像的类别按照一种文本范式来构建该图片的描述句子,然后使用一个图像编码器模块和文本编码器模块,分别对图像和文本进行编码得到对应的特征。所有文本特征构成一个文本特征向量,一个 Batch 内的图 2022-04-25 Research Multimodal CLIP Research Multimodal CLIP
感知机 1. 简介 感知机是二类分类的线性分类模型,属于监督学习中的判别模型: 输入:实例的特征向量; 输出:实例的类别,取 +1+1+1 和 −1-1−1 值。 感知机本质可以看作是输入空间(特征空间)中将实例划分为正负两类的分离超平面。其基于误分类的损失函数,并利用梯度下降法对损失函数进行极小化进行求解。 2. 模型 定义:假设输入空间(特征空间)是 X⊆Rn\mathcal{X} \subse 2022-04-24 Technique StatisticalLearning Technique StatisticalLearning