首页 国内 国际 要闻 社会 文化 健康 科技 教育 旅游 财经 实时

华人博士生首次尝试用两个Transformer构建一个GAN

2021-02-22 10:00:44 来源:深圳财经频道
分享: 微信

华人博士生首次尝试用两个Transformer构建一个GAN

最近,CV 研究者对 transformer 产生了极大的兴趣并取得了不少突破。这表明,transformer 有可能成为计算机视觉任务(如分类、检测和分割)的强大通用模型。

我们都很好奇:在计算机视觉领域,transformer 还能走多远?对于更加困难的视觉任务,比如生成对抗网络 (GAN),transformer 表现又如何?

在这种好奇心的驱使下,德州大学奥斯汀分校的 Yifan Jiang、Zhangyang Wang,IBM Research 的 Shiyu Chang 等研究者进行了第一次试验性研究,构建了一个只使用纯 transformer 架构、完全没有卷积的 GAN,并将其命名为 TransGAN。与其它基于 transformer 的视觉模型相比,仅使用 transformer 构建 GAN 似乎更具挑战性,这是因为与分类等任务相比,真实图像生成的门槛更高,而且 GAN 训练本身具有较高的不稳定性。

华人博士生首次尝试用两个Transformer构建一个GAN论文链接:https://arxiv.org/pdf/2102.07074.pdf 代码链接:https://github.com/VITA-Group/TransGAN

从结构上来看,TransGAN 包括两个部分:一个是内存友好的基于 transformer 的生成器,该生成器可以逐步提高特征分辨率,同时降低嵌入维数;另一个是基于 transformer 的 patch 级判别器。

研究者还发现,TransGAN 显著受益于数据增强(超过标准的 GAN)、生成器的多任务协同训练策略和强调自然图像邻域平滑的局部初始化自注意力。这些发现表明,TransGAN 可以有效地扩展至更大的模型和具有更高分辨率的图像数据集。

实验结果表明,与当前基于卷积骨干的 SOTA GAN 相比,表现最佳的 TransGAN 实现了极具竞争力的性能。具体来说,TransGAN 在 STL-10 上的 IS 评分为 10.10,FID 为 25.32,实现了新的 SOTA。

该研究表明,对于卷积骨干以及许多专用模块的依赖可能不是 GAN 所必需的,纯 transformer 有足够的能力生成图像。

在该论文的相关讨论中,有读者调侃道,「attention is really becoming『all you need』.」

华人博士生首次尝试用两个Transformer构建一个GAN

不过,也有部分研究者表达了自己的担忧:在 transformer 席卷整个社区的大背景下,势单力薄的小实验室要怎么活下去?

华人博士生首次尝试用两个Transformer构建一个GAN

如果 transformer 真的成为社区「刚需」,如何提升这类架构的计算效率将成为一个棘手的研究问题。

基于纯 Transformer 的 GAN

作为基础块的 Transformer 编码器

研究者选择将 Transformer 编码器(Vaswani 等人,2017)作为基础块,并尽量进行最小程度的改变。编码器由两个部件组成,第一个部件由一个多头自注意力模块构造而成,第二个部件是具有 GELU 非线性的前馈 MLP(multiple-layer perceptron,多层感知器)。此外,研究者在两个部件之前均应用了层归一化(Ba 等人,2016)。两个部件也都使用了残差连接。

内存友好的生成器

NLP 中的 Transformer 将每个词作为输入(Devlin 等人,2018)。但是,如果以类似的方法通过堆叠 Transformer 编码器来逐像素地生成图像,则低分辨率图像(如 32×32)也可能导致长序列(1024)以及更高昂的自注意力开销。

所以,为了避免过高的开销,研究者受到了基于 CNN 的 GAN 中常见设计理念的启发,在多个阶段迭代地提升分辨率(Denton 等人,2015;Karras 等人,2017)。他们的策略是逐步增加输入序列,并降低嵌入维数。

如下图 1 左所示,研究者提出了包含多个阶段的内存友好、基于 Transformer 的生成器:

华人博士生首次尝试用两个Transformer构建一个GAN

每个阶段堆叠了数个编码器块(默认为 5、2 和 2)。通过分段式设计,研究者逐步增加特征图分辨率,直到其达到目标分辨率 H_T×W_T。具体来说,该生成器以随机噪声作为其输入,并通过一个 MLP 将随机噪声传递给长度为 H×W×C 的向量。该向量又变形为分辨率为 H×W 的特征图(默认 H=W=8),每个点都是 C 维嵌入。然后,该特征图被视为长度为 64 的 C 维 token 序列,并与可学得的位置编码相结合。

与 BERT(Devlin 等人,2018)类似,该研究提出的 Transformer 编码器以嵌入 token 作为输入,并递归地计算每个 token 之间的匹配。为了合成分辨率更高的图像,研究者在每个阶段之后插入了一个由 reshaping 和 pixelshuffle 模块组成的上采样模块。

具体操作上,上采样模块首先将 1D 序列的 token 嵌入变形为 2D 特征图

华人博士生首次尝试用两个Transformer构建一个GAN

,然后采用 pixelshuffle 模块对 2D 特征图的分辨率进行上采样处理,并下采样嵌入维数,最终得到输出

华人博士生首次尝试用两个Transformer构建一个GAN

。然后,2D 特征图 X’_0 再次变形为嵌入 token 的 1D 序列,其中 token 数为 4HW,嵌入维数为 C/4。所以,在每个阶段,分辨率(H, W)提升到两倍,同时嵌入维数 C 减少至输入的四分之一。这一权衡(trade-off)策略缓和了内存和计算量需求的激增。

研究者在多个阶段重复上述流程,直到分辨率达到(H_T , W_T )。然后,他们将嵌入维数投影到 3,并得到 RGB 图像。

华人博士生首次尝试用两个Transformer构建一个GAN

用于判别器的 tokenized 输入

与那些需要准确合成每个像素的生成器不同,该研究提出的判别器只需要分辨真假图像即可。这使得研究者可以在语义上将输入图像 tokenize 为更粗糙的 patch level(Dosovitskiy 等人,2020)。

如上图 1 右所示,判别器以图像的 patch 作为输入。研究者将输入图像

华人博士生首次尝试用两个Transformer构建一个GAN

分解为 8 × 8 个 patch,其中每个 patch 可被视为一个「词」。然后,8 × 8 个 patch 通过一个线性 flatten 层转化为 token 嵌入的 1D 序列,其中 token 数 N = 8 × 8 = 64,嵌入维数为 C。再之后,研究者在 1D 序列的开头添加了可学得位置编码和一个 [cls] token。在通过 Transformer 编码器后,分类 head 只使用 [cls] token 来输出真假预测。

实验

CIFAR-10 上的结果

研究者在 CIFAR-10 数据集上对比了 TransGAN 和近来基于卷积的 GAN 的研究,结果如下表 5 所示:

华人博士生首次尝试用两个Transformer构建一个GAN

如上表 5 所示,TransGAN 优于 AutoGAN (Gong 等人,2019) ,在 IS 评分方面也优于许多竞争者,如 SN-GAN (Miyato 等人, 2018)、improving MMDGAN (Wang 等人,2018a)、MGAN (Hoang 等人,2018)。TransGAN 仅次于 Progressive GAN 和 StyleGAN v2。

对比 FID 结果,研究发现,TransGAN 甚至优于 Progressive GAN,而略低于 StyleGANv2 (Karras 等人,2020b)。在 CIFAR-10 上生成的可视化示例如下图 4 所示:

华人博士生首次尝试用两个Transformer构建一个GAN

STL-10 上的结果

研究者将 TransGAN 应用于另一个流行的 48×48 分辨率的基准 STL-10。为了适应目标分辨率,该研究将第一阶段的输入特征图从(8×8)=64 增加到(12×12)=144,然后将提出的 TransGAN-XL 与自动搜索的 ConvNets 和手工制作的 ConvNets 进行了比较,结果下表 6 所示:

华人博士生首次尝试用两个Transformer构建一个GAN

与 CIFAR-10 上的结果不同,该研究发现,TransGAN 优于所有当前的模型,并在 IS 和 FID 得分方面达到新的 SOTA 性能。

高分辨率生成

由于 TransGAN 在标准基准 CIFAR-10 和 STL-10 上取得不错的性能,研究者将 TransGAN 用于更具挑战性的数据集 CelebA 64 × 64,结果如下表 10 所示:

华人博士生首次尝试用两个Transformer构建一个GAN

TransGAN-XL 的 FID 评分为 12.23,这表明 TransGAN-XL 可适用于高分辨率任务。可视化结果如图 4 所示。

局限性

虽然 TransGAN 已经取得了不错的成绩,但与最好的手工设计的 GAN 相比,它还有很大的改进空间。在论文的最后,作者指出了以下几个具体的改进方向:

对 G 和 D 进行更加复杂的 tokenize 操作,如利用一些语义分组 (Wu et al., 2020)。 使用代理任务(pretext task)预训练 Transformer,这样可能会改进该研究中现有的 MT-CT。 更加强大的注意力形式,如 (Zhu 等人,2020)。 更有效的自注意力形式 (Wang 等人,2020;Choromanski 等人,2020),这不仅有助于提升模型效率,还能节省内存开销,从而有助于生成分辨率更高的图像。

作者简介

华人博士生首次尝试用两个Transformer构建一个GAN

本文一作 Yifan Jiang 是德州大学奥斯汀分校电子与计算机工程系的一年级博士生(此前在德克萨斯 A&M 大学学习过一年),本科毕业于华中科技大学,研究兴趣集中在计算机视觉、深度学习等方向。目前,Yifan Jiang 主要从事神经架构搜索、视频理解和高级表征学习领域的研究,师从德州大学奥斯汀分校电子与计算机工程系助理教授 Zhangyang Wang。

在本科期间,Yifan Jiang 曾在字节跳动 AI Lab 实习。今年夏天,他将进入 Google Research 实习。

一作主页:https://yifanjiang.net/

 


(责任编辑:深圳财经频道)


免责声明:本站所有文章内容不代表本站立场,本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺,仅供读者参考;文章版权归原作者所有!本站作为信息内容发布平台,信息均由网友投稿发布,页面展示内容的目的在于传播更多信息;本站内容不参与任何的商业性质服务与用途,阁下应知本站所提供的内容不能做为操作依据。如本文内容影响到您的合法权益(含文章中内容、图片等),请及时联系我们,我们核实后会及时删除处理。

相关文章

7岁女孩为80岁老姥爷霸气喊祝福 这是什么场面?【图】

"近日,一则“7岁女孩为80岁老姥爷霸气喊祝福”消息引发关注。据悉,21日,位于山东济宁,一段7岁女孩给老姥爷祝寿的视频走红。...

来源:广东时代新闻

全国疫情中高风险地区清零 这是什么情况??

"好消息!好消息!望奎调整为低风险!望奎调整为低风险!全国疫情中高风险地区清零!...

来源:深圳都市报

恶劣天气致美国新冠疫苗供应受阻 具体什么情况?

"【恶劣天气致美国新冠疫苗供应受阻】据塔斯社华盛顿2月20日报道,美国白宫新冠疫情应对团队高级顾问安迪·斯拉维特当地时间19日在例行记者会上称,猛烈的暴风雪导致50个州近600万剂新冠疫苗供应受阻。...

来源:深圳财经频道

多地要求老师亲自改作业 到底怎么回事?【图】

"日前,一则“多地要求老师亲自改作业”引发关注。据悉,针对这一通知,网民议论纷纷,家校“作业矛盾”怎么解决?家校如何定位各自角色?仅用行政部门的一纸文件,用“一刀切”的办法规定,解决不了作业矛盾。...

来源:广东新闻网

消息称特斯拉停止接受最低价版本Model Y的订单

2月22日早间消息,据汽车新闻网站Electrek报道,特斯拉公司已经停止在美国接受售价最低的版本的电动SUV Model Y的订单,并且已经在官网上移除了该版本车型的配置工具。而值得一提的是,基础版Model Y在美国仅仅开售了一个月...

来源:深圳都市晚报

特斯拉在美国停止接受标准续航版Model Y预订 上周刚降价2000美元

【TechWeb】2月22日消息,据国外媒体报道,在上周下调部分Model 3和Model Y在美国市场的售价之后,特斯拉再次进行了降价,涉及的车型同样是在美国市场销售的Model 3和Model Y,不过,在降价的同时,他们也已停止接受标准续航版Mode...

来源:深圳都市爆料

特斯拉Model 3/Model Y长续航版在美起售价下调1000美元

【TechWeb】2月22日消息,据国外媒体报道,在对标准续航升级版和Performance高性能版价格进行调整后,特斯拉再次调整Model 3/Model Y长续航版的起售价。据悉,特斯拉将Model 3/Model Y长续航版的起售价均下调了1000美元。目...

来源:热点资讯播报

无监督训练用堆叠自编码器是否落伍?ML博士对比了8个自编码器

柏林工业大学深度学习方向博士生 Tilman Krokotsch 在多项任务中对比了 8 种自编码器的性能。深度学习中的自编码器。图源:https://debuggercafe.com/autoencoders-in-deep-learning/目前,很多研究者仍在使用堆叠自编码...

来源:深圳都市报

华人博士生首次尝试用两个Transformer构建一个GAN

最近,CV 研究者对 transformer 产生了极大的兴趣并取得了不少突破。这表明,transformer 有可能成为计算机视觉任务(如分类、检测和分割)的强大通用模型。我们都很好奇:在计算机视觉领域,transformer 还能走多远?对于更加困难...

来源:深圳财经频道

MIT提出Liquid机器学习系统,可像液体一样适应动态变化

在自动驾驶等许多重要应用中,数据都是实时动态的,并且时不时还会出现一些意外情况。为了高效地应对这一问题,MIT 的研究者受生物神经元启发而设计了一种新型神经网络,并且他们还通过理论证明和实验验证体现了该神经网络的...

来源:深圳都市晚报

合作联系

联系方式

中华网新媒体 财经频道
互动/投稿邮箱:
852414410@qq.com
网上不良信息举报QQ:852414410
内侵权删除处理QQ:852414410
本站涵盖的内容、图片、视频等内容均由网友自助投稿或发布,本站不对内容真实性承担责任。若涉内容及版权问题,请联系我们进行删除!