媒体报道

首页-傲世皇朝平台-傲世皇朝注册【傲世皇朝注册登录】

2023-01-13 11:09:09 yqs888 6

首页-傲世皇朝平台-傲世皇朝注册【傲世皇朝注册登录】报道,深度学习取得了巨大成功,训练一般需要大量的数据。存储、传输和数据集预处理成为大数据集使用的阻碍。另外发布原始数据可能会有隐私版权等问题。

数据集蒸馏(Dataset Distillation)是一种解决方案,通过蒸馏一个数据集形成一个只包含少量样本的合成数据集,同时训练成本显著降低。数据集蒸馏可以用于持续学习、神经网络架构搜索等领域。

最早提出的数据集蒸馏算法核心思想即优化合成数据集,在下游任务中最小化损失函数。DSA( Dataset condensation with differentiable siamese augmentation)、GM( Dataset condensation with gradient matching)、CS(Dataset condensation with contrastive signals)等方法提出匹配真实数据集和合成数据集的梯度信息的算法。 MTT(Dataset distillation by matching training trajectories)指出由于跨多个步骤的误差累计,单次迭代的训练误差可能导致较差的性能,提出在真实数据集上匹配模型的长期动态训练过程。除了匹配梯度信息的方法,DM(Dataset condensation with distribution matching)提出了匹配数据集分布,具体方法是添加最大平均差异约束( Maximum Mean Discrepancy,MMD)。

本文方法将合成数据集分解为两个部分:数据幻觉器网络(Data Hallucination Network)和基础数据(Bases)。数据幻觉器网络将基础数据作为输入,输出幻觉图像(合成图像)。在数据幻觉器网络训练过程中,本文考虑添加特殊设计的对比学习损失和一致性损失。本文方法得到的合成数据集在跨架构任务中比基准方法取得了精度10%的提升

傲世皇朝平台


方法

傲世皇朝平台


基与幻觉器

先前数据集蒸馏方法中,为了在下游模型中输入和输出的形状保持一直,合成数据的形状需要与真实数据相同。由于幻觉器网络可以使用空间和通道变换,本文方法没有形状相同限制。

傲世皇朝平台


对抗性对比约束

本文的幻觉器网络训练过程是一个最小-最大博弈(min-max game)过程。最大化过程即最大化不同幻觉器间的差异。输入xij在幻觉器最后一层的输出定义为F−1(xij)。损失函数类似于对比学习,可以描述为:


首页
产品
新闻
联系