RobustART评测模型鲁棒性:用Transformer做风格迁移遭质疑

文章正文
发布时间:2025-01-16 03:59

机器之心 & ArXiv Weekly Radiostation

参与:杜伟、楚航、罗若天

本周论文包括南洋理工大学、香港中文大学提出的一个交互式人脸编辑框架 Talk-to-Edit,可以通过用户和系统之间的对话进行细粒度的属性操作等研究。

目录:

Paint Transformer: Feed Forward Neural Painting with Stroke Prediction

RobustART : Benchmarking Robustness on Architecture Design and Training Techniques

Learning to Resize Images for Computer Vision Tasks

TransCenter: Transformers with Dense Queries for Multiple-Object Tracking

Talk-to-Edit: Fine-Grained Facial Editing via Dialog

Certifiable Outlier-Robust Geometric Perception: Exact Semidefinite Relaxations and Scalable Global Optimization

LEARNING TO PROMPT FOR VISION-LANGUAGE MODELS

ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)

论文 1: Paint Transformer: Feed Forward Neural Painting with Stroke Prediction

作者: Songhua Liu 、 Tianwei Lin 、 Dongliang He 等

论文链接:https://arxiv.org/pdf/2108.03798.pdf

摘要:在一篇 ICCV 2021 Oral 论文中,来自百度 VIS 团队和罗格斯大学等机构的研究者将神经绘画视作一个集合预测问题,提出了全新的、基于 Transformer 的框架——Paint Transformer,从而利用前馈网络来预测笔画集合的参数。就其效果而言,研究者提出的模型可以并行地生成一系列笔画,并几乎能够实时地得到尺寸为 512×512 的重建绘画。

更重要的是,由于训练 Paint Transformer 没有可用的数据集,研究者设计了一个自训练的 pipeline,这样既可以在不使用任何现成数据集的情况下训练,又依然能够实现极好的泛化能力。实验结果表明,Paint Transformer 在训练和推理成本更低的情况下,实现了较以往方法更好的性能。

研究者将神经绘画视作一个渐进的笔画预测过程。在每一步并行地预测多个笔画,以前馈的方式最小化当前画布和目标图像之间的差异。就其结构而言,Paint Transformer 由两个模块组成,分别是笔画预测器(Stroke Predictor)和笔画渲染器(Stroke Renderer)。

Paint Transformer 的自训练 pipeline

该研究主要考虑了直线笔画,这种笔画可以通过形状参数和颜色参数来表征。如下图 3 所示,一个笔画的形状参数包括:中心点坐标 X 和 Y,高度 h,宽度 w 和渲染角θ。

推荐:ICCV 2021 Oral 论文。

论文 2: RobustART : Benchmarking Robustness on Architecture Design and Training Techniques

作者: Shiyu Tang 、 Ruihao Gong 、 Yan Wang 等

论文链接:https://arxiv.org/pdf/2109.05211.pdf

摘要:来自北京航空航天大学、商汤科技和京东探索研究院的研究人员联合加州大学伯克利分校、牛津大学以及约翰斯 · 霍普金斯大学提出了第一个在大规模数据集 ImageNet 上面向模型结构(ARchitecture Design)和训练技巧(Training Technique)且针对多种噪音类型的模型鲁棒性评测基准——RobustART。

该 benchmark 全面评测了 44 种经典的手工设计和 1200 种 NAS 采样得到的模型架构以及 10 余种模型训练技巧对于鲁棒性(对抗噪音、自然噪音、系统噪音等)的影响 。并通过海量且深入的实验探究,得出了大量的有价值实验结果和众多启发性的结论:

(1)对于 Transformer 和 MLP-Mixer,对抗训练可以全面提升其全部噪音鲁棒性和任务本身的效果;(2)在模型大小一致的前提下,对于自然噪音和系统噪音鲁棒性:CNN>Transformer>MLP-Mixer,对于对抗噪音鲁棒性,Transformer>MLP-Mixer>CNN;(3)对于一些轻量化的模型族,增加其模型大小或者增加训练数据并不能提升其鲁棒性等。这些分析和结论将对人们认识模型鲁棒性机理并设计安全稳固的模型架构产生重要的意义。

RobustART benchmark(1)提供了一个包含 leaderboard、数据集、源码等详实信息在内的开源平台;(2)开放了 80 余种使用不同模型结构和训练技巧的预训练模型,以便于研究人员进行鲁棒性评估;(3)贡献了崭新的视角和大量的分析结论,让研究人员更好地理解鲁棒模型背后的内在机制。

推荐:CNN、Transformer、MLP-Mixer 谁最鲁棒?

论文 3: Learning to Resize Images for Computer Vision Tasks

作者: Hossein Talebi 、Peyman Milanfar

论文链接:https://arxiv.org/pdf/2103.09950.pdf

摘要:近年来,卷积神经网络以各种方式彻底改变了计算机视觉,其中一个重要方面却很少受到关注:图像大小对训练任务准确性的影响。通常,为了提高效率,输入图像被调整为相对较小的空间分辨率(例如 224 × 224),并且训练和推理都在这个分辨率下进行。这种调整大小的机制通常是固定的图像 resizer(如:双行线插值),但是这些 resizer 是否限制了训练网络的任务性能呢?答案是肯定的。事实上,该研究展示了典型的线性 resizer 可以替换为能够显着提高性能的可学习 resizer。虽然经典的 resizer 通常会具备更好的小图像感知质量(即对人类识别图片更加友好),本文提出的可学习 resizer 不一定会具备更好的视觉质量,但能够提高 CV 任务的性能。

该研究中可学习图像 resizer 与基线视觉模型联合训练。这个可学习的基于 CNN 的 resizer 创建了机器友好的视觉操作,导致最终任务指标相对于基线模型的持续改进。具体来说,这里研究者专注于 ImageNet 数据集的分类任务,并尝试使用四种不同的模型来学习适应每个模型的 resizer。此外,该研究表明所提出的 resizer 也可用于微调其他视觉任务的分类基线。

新型图像 resizer

推荐:谷歌在 ICCV2021 研究。

论文 4: TransCenter: Transformers with Dense Queries for Multiple-Object Tracking

作者: Yihong Xu 、 Yutong Ban 等

论文链接:https://arxiv.org/pdf/2103.15145.pdf

摘要:受近期基于锚点(point-based)MOT 方法的启发,来自 MIT 等机构的研究提出 TransCenter,这是首个用于预测密集目标点热力图 (dense center heatmap)Transformer MOT 架构 。

具体而言,该研究提出利用像素级密集多尺度查询(dense pixel-level multi-scale queries)配合 Transfromer 强大的全局表示能力,全局且充足地检测和跟踪目标中心(center tracking)。相同训练策略和同等数据下,TransCenter 在两个标准 MOT 数据集上 (MOT17 以及稠密的 MOT20)均超越了 SOTA 方法。特别地,在 MOT20 上,用更少的训练数据,该研究甚至超越了基于锚点的 MOT 以前 SOTA 方法。另外,与从 DETR 到 MOT 的简单推广相比,实验研究也证明了所提出的架构表现出明显的性能和架构优势。

TransCenter 的整体架构如图所示,该研究采用经典的 encoder-decoder 结构。由于密集查询(Dense Queries)的引入,研究者在编码器(Transformer Decoder)和解码器 (Transformer Decoder)上均采用更高效的 Deformable Transformer (zhu et al.) 以解决密集查询带来的训练内存和运行效率的限制。

推荐:MIT&INRIA 开源多目标物体跟踪算法。

论文 5: Talk-to-Edit: Fine-Grained Facial Editing via Dialog

作者: Yuming Jiang 、 Ziqi Huang 等

论文链接:https://arxiv.org/abs/2109.04425

摘要:来自南洋理工大学、香港中文大学提出的一个交互式人脸编辑框架 Talk-to-Edit,可以通过用户和系统之间的对话进行细粒度的属性操作。此外,该研究还创建了一个视觉语言人脸编辑数据集 CelebA-Dialog,用来促进大规模研究。

该研究提出的 Talk-to-Edit 的 pipeline 如下图所示:

该研究用 Semantic Field 来实现对人脸特征连续且高细粒度可控的编辑。对话功能则由 Language Encoder 和 Talk 模块来实现。

推荐:对话实现高细粒度人脸编辑。

论文 6: Certifiable Outlier-Robust Geometric Perception: Exact Semidefinite Relaxations and Scalable Global Optimization

作者: Heng Yang 、 Luca Carlone 等

论文链接:https://arxiv.org/pdf/2109.03349.pdf

摘要:清华大学校友、MIT 在读博士生杨珩与其他研究者合作开发了第一套针对自动驾驶汽车的「可认证的感知」算法,这一算法有助于提高下一代自动驾驶汽车的行驶安全。

该研究的第一个贡献表明使用常见鲁棒成本估计,如 TLS、最大共识、Geman-McClure、Tukey 双权重等,可以重新表述为多项式优化问题(POP)。通过关注 TLS 成本,他们的第二个贡献是利用 POP 中的稀疏性,提出了一种比标准 Lasserre 层次结构小得多的稀疏半定规划 (SDP) 松弛,同时保留了准确性。第三个贡献是通过提出 STRIDE,以前所未有的规模和精度解决 SDP 松弛问题,这是一种将凸 SDP 中的全局下降与非凸 POP 的快速局部搜索相结合的求解器。第四个贡献是评估了所提出的针对六个几何感知问题的框架,包括单次与多次旋转平均、点云和网格配准、绝对姿态估计以及类别级对象姿态和形状估计。

实验表明 (i) 该研究提出的稀疏 SDP 松弛是准确的,应用程序中高达 60%–90% 的异常值;(ii) 虽然离实时还很远,但 STRIDE 在中等规模问题上比现有 SDP 求解器快 100 倍,并且是唯一可以高精度求解具有数十万个约束的大规模 SDP 的求解器 ; (iii) STRIDE 为现有的快速启发式算法(如 RANSAC 或阶段非凸)提供了一种保护措施,即如果启发式估计是最优的,则证明全局最优。

推荐:第一套保护自动驾驶车辆的感知算法。

论文 7: LEARNING TO PROMPT FOR VISION-LANGUAGE MODELS

作者: Kaiyang Zhou、Jingkang Yang、Chen Change Loy、 Ziwei Liu

论文链接:https://arxiv.org/abs/2109.01134

摘要:来自新加坡南洋理工大学的研究者提出了一种名为上下文优化 (Context Optimization,英文名:CoOp,中文名:琥珀) 的新方法。

琥珀的主要思想是对提词器(prompt)中的上下文(context)用连续向量进行建模,而整个训练过程将仅对这几个上下文词向量进行端到端优化,而保持预训练参数不变。该方法完全自动化了提词器的设计过程,下图展示了琥珀的模型结构。

该研究在实验中使用了 11 个视觉数据集来验证琥珀的有效性:结果表明琥珀是一个十分高效的小样本学习方法,平均每个类别只需一到两张图片就可以击败基于手工提词器的零样本识别模型。当每个类别的图片有 16 张时,琥珀比手工提词器平均高出了大约 17 个百分点(最高可达 50 个百分点)。不仅如此,琥珀还对领域泛化表现出了极强的鲁棒性(见下图,其中 M 指代琥珀的提词器长度)。

推荐:提词优化器「琥珀」带你用好 CLIP。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:

本周 10 篇 NLP 精选论文是:

1. Distantly-Supervised Named Entity Recognition with Noise-Robust Learning and Language Model Augmented Self-Training. (from Jiawei Han)

2. Gradient Imitation Reinforcement Learning for Low Resource Relation Extraction. (from Philip S. Yu)

3. Improved Latent Tree Induction with Distant Supervision via Span Constraints. (from Andrew McCallum)

4. Box Embeddings: An open-source library for representation learning using geometric structures. (from Andrew McCallum)

5. LM-Critic: Language Models for Unsupervised Grammatical Error Correction. (from Jure Leskovec)

6. Improving Neural Machine Translation by Bidirectional Training. (from Dacheng Tao)

7. Post-OCR Document Correction with large Ensembles of Character Sequence Models. (from Evangelos Milios)

8. STraTA: Self-Training with Task Augmentation for Better Few-shot Learning. (from Quoc V. Le)

9. The Emergence of the Shape Bias Results from Communicative Efficiency. (from Dan Jurafsky)

10. Compression, Transduction, and Creation: A Unified Framework for Evaluating Natural Language Generation. (from Eric P. Xing)

本周 10 篇 CV 精选论文是:

1. Anchor DETR: Query Design for Transformer-Based Detector. (from Xiangyu Zhang, Jian Sun)

2. MHFC: Multi-Head Feature Collaboration for Few-Shot Learning. (from Yan-Jiang Wang)

3. Image Synthesis via Semantic Composition. (from Xiangyu Zhang, Jiaya Jia)

4. PnP-DETR: Towards Efficient Visual Analysis with Transformers. (from Shuicheng Yan)

5. Partner-Assisted Learning for Few-Shot Image Classification. (from Shih-Fu Chang)

6. Semi-Supervised Visual Representation Learning for Fashion Compatibility. (from Vijay Kumar)

7. Harnessing Perceptual Adversarial Patches for Crowd Counting. (from Dacheng Tao)

8. MotionHint: Self-Supervised Monocular Visual Odometrywith Motion Constraints. (from Dinesh Manocha)

9. A Self-Supervised Deep Framework for Reference Bony Shape Estimation in Orthognathic Surgical Planning. (from Dinggang Shen)

10. Unsupervised Domain Adaptive Learning via Synthetic Data for Person Re-identification. (from Xuelong Li)

本周 10 篇 ML 精选论文是:

1. Knowledge-guided Self-supervised Learning for estimating River-Basin Characteristics. (from Vipin Kumar)

2. An Empirical Comparison of Off-policy Prediction Learning Algorithms in the Four Rooms Environment. (from Richard S. Sutton)

3. Inverse design of 3d molecular structures with conditional generative neural networks. (from Klaus-Robert Müller)

4. DCUR: Data Curriculum for Teaching via Samples with Reinforcement Learning. (from John Canny)

5. Convergence of a Human-in-the-Loop Policy-Gradient Algorithm With Eligibility Trace Under Reward, Policy, and Advantage Feedback. (from Michael L. Littman)

6. Multi-Task Learning with Sequence-Conditioned Transporter Networks. (from Claire Tomlin, Stefan Schaal)

7. Global and Local Interpretation of black-box Machine Learning models to determine prognostic factors from early COVID-19 data. (from Dimitris Metaxas)

8. Mixing between the Cross Entropy and the Expectation Loss Terms. (from Lior Wolf)

9. ROMAX: Certifiably Robust Deep Multiagent Reinforcement Learning via Convex Relaxation. (from Jonathan P. How)

10. Improved Algorithms for Misspecified Linear Markov Decision Processes. (from R. Srikant)