解决IRM优化挑战的有效解决方案

释放双眼,带上耳机,听听看~!
本文详细讨论了IRM在实践中的缺点,并从多目标优化(Multi-Objective Optimization, MOO)的角度出发,来缓解IRM优化的问题。同时介绍了IRM中的优化挑战以及有效解决方案,包括IRM在实际应用中的缺点和解决方案,以及IRMS和PAIR的优势。

0.论文信息

解决IRM优化挑战的有效解决方案

文章概述

  本文详细讨论了 IRM 在实践中的缺点,并从多目标优化 (Multi-Objective Optimization,MOO) 的角度出发,来缓解 IRM 优化的问题。

1.介绍

解决IRM优化挑战的有效解决方案

图 1. OOD 算法的优化问题。(a) IRM 等 OOD 目标通常需要几个松弛才能轻松优化,但是会引入巨大的差距。椭球表示满足实际 IRMv1 不变性约束的解。当用ERM优化时,IRMv1 更喜欢 f1f_1 而不是 fIRMf_{text{IRM}} (IRM产生的预测器)。(b) ERM 和 OOD 目标之间的梯度冲突通常存在于不同惩罚权重 (x 轴) 的不同目标上。(c) 通常使用线性加权方案来组合 ERM 和 OOD 目标需要仔细调整权重以接近解决方案。然而,该方案不能到达帕累托前沿非凸部分的任何解。相比之下,PAIR 在导致所需解决方案的梯度冲突下找到了自适应下降方向。(d) 由于优化困境,最佳 OOD 性能 (例如,实验部分的修改版的 ColoredMNIST) 通常需要对超参数进行详尽的调整 (y 轴 : 惩罚权重;x 轴 : 预训练 epoch),而 PAIR 通过解决妥协来鲁棒地产生最佳性能。

  本章主要展示了现有 IRM 解决方案的缺点,以及 PAIR 的优势 (事实上提前放出来只有一些感性认知,毕竟还没有开始仔细介绍自己的解决思路)。

2.IRM 中的优化挑战及其有效解决方案

2.1 IRM 在实际应用中的缺点

  IRM 框架通过寻找不变的表示 ϕphi 来解决 OOD (训练数据分布外) 泛化问题,这样就存在一个分类器在 ϕphi 上同时在所有 Etrmathcal{E}_{tr} 中是都是最优的。因此,IRM 可写作如下的双层优化 :

min⁡w,φ∑e∈ErLe(w∘φ), s.t. w∈arg⁡min⁡wˉ:Z→YLe(wˉ∘φ),∀e∈Etr(1)min _{w, varphi} sum_{e in mathcal{E}_{mathrm{r}}} mathcal{L}_e(w circ varphi), text { s.t. } w in underset{bar{w}: mathcal{Z} rightarrow mathcal{Y}}{arg min } mathcal{L}_e(bar{w} circ varphi), forall e in mathcal{E}_{mathrm{tr}}tag{1}

  在解决不变预测器时,描述 I(Etr)mathcal{I}(mathcal{E}_{tr}) 在实践中特别困难的,因此自然地将 Wmathcal{W} 限制为 Z=Rdmathcal{Z}=mathbb{R}^d 上的线性函数空间。此外,IRM 的作者团队认为,线性分类器实际上并没有比标量分类器提供更多的表示能力,即 d=1,W=S=R1d=1,mathcal{W}=mathcal{S}=mathbb{R}^1。标量限制引出了一种实用变体 IRMStext{IRM}_{mathcal{S}} :

min⁡φ∑e∈ErrLe(φ), s.t. ∇w∣w=1Le(w⋅φ)=0,∀e∈Etr(2)min _{varphi} sum_{e in mathcal{E}_{mathrm{rr}}} mathcal{L}_e(varphi), text { s.t. } nabla_{w mid w=1} mathcal{L}_e(w cdot varphi)=0, forall e in mathcal{E}_{mathrm{tr}}tag{2}

  因为 Eq.(2) 仍然是一个约束规划。Arjovsky 等人进一步介绍了一种称为 IRMv1 的软约束变体,如下所示

min⁡φ∑e∈ErrLe(φ)+λ∣∇w∣w=1Le(w⋅φ)∣2(3)min _{varphi} sum_{e in mathcal{E}_{mathrm{rr}}} mathcal{L}_e(varphi)+lambdaleft|nabla_{w mid w=1} mathcal{L}_e(w cdot varphi)right|^2tag{3}

实际 IRM 变体的理论失败 尽管实际的变体看起来很有希望,但松弛性在 IRM 和实际变体之间引入了巨大的差距,因此 IRMStext{IRM}_{mathcal{S}} 和 IRMv1 都无法捕获不变性。失效情况用 αe,βe∈[0,1]alpha_e,beta_ein[0,1] 的两位环境来说明。每个环境 De={Xe,Ye}mathcal{D}_e={X^e,Y^e} 由如下形式产生,其中 Rad(σ)text{Rad}(sigma) 是一个随机变量,取值为 -1 的概率为 σsigma,取值为 +1 的概率为 1−σ1-σ。每个环境记为 Eα={(α,βe):0<βe<1}mathcal{E}_alpha=left{left(alpha, beta_eright): 0<beta_e<1right},其中 X1eX^e_1αalpha 在不同环境 ee 中固定不变的不变特征,X2eX^e_2βebeta_e 在不同环境 e 中变化的伪特征。

Ye:=Rad⁡(0.5),Xe:=(X1e,X2e)X1e:=Ye⋅Rad⁡(αe),X2e:=Ye⋅Rad⁡(βe)(4)begin{aligned}
Y^e:=operatorname{Rad}(0.5),&quad X^e:=left(X_1^e, X_2^eright)
X_1^e:=Y^e cdot operatorname{Rad}left(alpha_eright),&quad X_2^e:=Y^e cdot operatorname{Rad}left(beta_eright)
end{aligned}
tag{4}

  设 IS(Etr)mathcal{I}_{mathcal{S}}(mathcal{E}_{tr}) 表示 IRMStext{IRM}_{mathcal{S}} 中由松弛约束引起的不变预测量集合。由此可得 : IS(Etr)⊆I(Etr)mathcal{I}_{mathcal{S}}(mathcal{E}_{tr})subseteqmathcal{I}(mathcal{E}_{tr})。因此,存在一些不期望的预测因子,但被 IRMStext{IRM}_{mathcal{S}} 和 IRMv1 认为是 “不变的”。例如,在 Etr={(0.1,0.11),(0.1,0.4)}mathcal{E}_{tr} ={(0.1, 0.11),(0.1, 0.4)} 中,IRMStext{IRM}_{mathcal{S}} 中满足约束的解为图1.(a) 中相交的点 (椭球体为约束)。虽然 f1,fIRM∈IS(Etr)f_1,f_{text{IRM}}in mathcal{I}_S(mathcal{E}_{tr}),但 IRMStext{IRM}_{mathcal{S}} 和 IRMv1 都倾向于 f1f_1 而不是 fIRMf_{text{IRM}} (IRM 产生的预测因子),因为 f1f_1 的 ERM 损失最小。事实上,Kamath 等人表明,即使给定无限数量的环境和样本,也可能在广泛的环境中失效,这表明实际的 IRM 变体与原始的 IRM 之间存在巨大差距。

实际 IRM 变体的经验缺陷 此外,由于 IRMv1 惩罚项与 ERM 目标之间的冲突,给 IRMv1 的优化带来了更多的挑战。如图1.(d) 所示,通常需要进行大规模的调参,如 Eq.(3) 中的预训练轮数和惩罚权重 λlambda。否则,IRMv1的惩罚可能太弱而无法执行 IRM 所要求的不变性,或者太强而阻止 ERM 学习所有所需的模式。

2.2 IRM的帕累托最优优化

通过 MOO 视角理解 IRM 的问题 首先,将实际的 IRM 问题 (Eq.(3)) 重新表述为 MOO 问题是很自然的,其中 LERM=1∣Etr∣∑e∈EtrLemathcal{L}_{mathrm{ERM}}=frac{1}{left|mathcal{E}_{mathrm{tr}}right|} sum_{e in mathcal{E}_{mathrm{tr}}} mathcal{L}_e 表示 ERM 损失,LIRM=∑e∣∇w∣w=1Le(w⋅ϕ)∣2mathcal{L}_{mathrm{IRM}}=sum_elvertnabla_{w|w=1}mathcal{L}_e(wcdotphi)rvert^2 表示实际的 IRMv1 损失 :

min⁡φ(LERM,LIRM)T(5)min _{varphi}left(mathcal{L}_{mathrm{ERM}}, mathcal{L}_{mathrm{IRM}}right)^Ttag{5}

  为了理解公式 Eq.(5),我们使用图1.(a) 中先前的失败案例来可视化关于 {Le}e∈Etr{mathcal{L}_e}_{einmathcal{E}_{tr}} 的帕累托前沿。

解决IRM优化挑战的有效解决方案

图 2. ERM损失的帕累托前沿

解决IRM优化挑战的有效解决方案

图 3. 方差分布

  设 P(L1(θ),…,Lm(θ))mathcal{P}left(mathcal{L}_1(theta), ldots, mathcal{L}_m(theta)right) 表示关于(L1(θ),…,Lm(θ))left(mathcal{L}_1(theta), ldots, mathcal{L}_m(theta)right) 的 Pareto 最优解的集合。如图 2 所示,首先我们可以发现 fIRM∉P(L1,L2)f_{mathrm{IRM}} notin mathcal{P}left(mathcal{L}_1, mathcal{L}_2right)。换句话说,求解任何环境加权的 ERM 损失都不能得到 fIRMf_{mathrm{IRM}}。并且,结合图1.(a),因为 fIRMf_{mathrm{IRM}}f1f_1 为主,即使结合 IRMStext{IRM}_{mathcal{S}} 或 IRM v1,即 fIRM∉P(L1,L2,LIRM)f_{mathrm{IRM}} notin mathcal{P}left(mathcal{L}_1, mathcal{L}_2, mathcal{L}_{mathrm{IRM}}right),则 fIRM∉P(LERM,LIRM)f_{mathrm{IRM}} notin mathcal{P}left(mathcal{L}_{mathrm{ERM}}, mathcal{L}_{mathrm{IRM}}right)因此,无论我们如何仔细地控制优化过程,我们都不能仅仅通过最小化 Eq.(5) 中的目标来获得 fIRMf_{mathrm{IRM}}。这主要是由于松弛性导致 IRMStext{IRM}_{mathcal{S}} 和 IRMv1 的域泛化鲁棒性减弱。因此,选择鲁棒目标进行优化对于OOD泛化具有重要意义。理想目标至少应该包含一个帕累托前沿,其中包含理想的域泛化解决方案。(那个图 1 的小图真的看着很不清楚,看了半天最终才找到了 f1f_1 的出处,所以给截图做了下超分辨率处理)

改进实际 IRM 变体的域泛化的鲁棒性 为了追求适当的优化目标,我们采用 IRM 的 OOD 外推解释。对于所有训练环境同时最优的解 (即满足原始 IRM 约束) 也是相对于某些 OOD 分布的 ERM 损失的平稳点,其中 Ltmathcal{L}_t 为 OOD 分布下的 ERM 损失。

∂Lt/∂fIRM=0,Lt∈{∑e∈EtrλeLe∣∑e∈Etrλe=1}(6)partial mathcal{L}_t / partial f_{mathrm{IRM}}=mathbf{0}, mathcal{L}_t inleft{sum_{e in mathcal{E}_{mathrm{tr}}} lambda_e mathcal{L}_e mid sum_{e in mathcal{E}_{mathrm{tr}}} lambda_e=1right}tag{6}

  与分布鲁棒优化方法不同,Eq.(6) 允许一些负值 λelambda_e,因此其解有望更好地外推。

  前面的失败案例意味着 IRMStext{IRM}_{mathcal{S}} 和 IRMv 1都由于松弛性而在外推中失败,然而,我们可以引入额外的目标来直接提高实际 IRM 变体的 OOD 外推能力。为此,我们将 REx 目标引入到 IRMv1 中,IRMv1 是通过在距离训练分布一定距离内直接最小化所有 OOD 分布下最坏情况下的 ERM 损失而得出的。更正式地进行表述,在 Eq.(6) 中 {λe}e∈Ev≥−βleft{lambda_eright}_{e in mathcal{E}_{mathrm{v}}} geq-beta 的附加约束下,REx 最小化了最坏情况 Ltmathcal{L}_t。为了便于优化,他们还提出了 LVRExmathcal{L}_{text{VREx}} 的替代目标 LVREx:=var⁡({Le}e∈Etr)mathcal{L}_{mathrm{VREx}}:=operatorname{var}left(left{mathcal{L}_eright}_{e in mathcal{E}_{mathrm{tr}}}right)。在图 3中,我们绘制了图 1.(a) 失效情况下 LVRExmathcal{L}_{text{VREx}} 的分布。可以发现,fIRMf_{text{IRM}} 处于低方差区域。同样,在图 2中,零方差解 (中间紫色线所示) 指出了帕累托前沿之外潜在的 fIRMf_{text{IRM}}。因此,在 Eq.(5) 中加入 LVRExmathcal{L}_{text{VREx}} 可以将 fIRMf_{text{IRM}} 重新定位到帕累托前沿,这意味着期望的目标如下 :

(IRMX)min⁡φ(LERM,LIRM,LVREx)T(7)text {(IRMX)} quad min _{varphi}left(mathcal{L}_{mathrm{ERM}}, mathcal{L}_{mathrm{IRM}}, mathcal{L}_{mathrm{VREx}}right)^T tag{7}

  通过解决 IRMStext{IRM}_{mathcal{S}} 和 IRMv1 的大量失效案例,在 OOD 外推中,Eq.(7) 的解比 IRMStext{IRM}_{mathcal{S}} 和 IRMv1 的解更强大。事实上,可以得到

命题 1 (非正式) 在设定 A 下,对于所有 α∈(0,1)alphain(0,1),设 E={(α,βe):βe∈(0,1)}mathcal{E}=left{left(alpha, beta_eright): beta_e in(0,1)right} 是两位环境 (Eq.(4)) 的任意实例,IXmathcal{I}_X 表示由 Eq.(7) 产生的不变预测因子,则认为 IX(E)=I(E)mathcal{I}_X(mathcal{E})=mathcal{I}(mathcal{E})

IRMX 的 Pareto 优化 理想情况下,帕累托最优解集很小,使得每个 f∈P(LERM,LIRM,LVREx)f in mathcal{P}left(mathcal{L}_{mathrm{ERM}}, mathcal{L}_{mathrm{IRM}}, mathcal{L}_{mathrm{VREx}}right) 满足 IRMv1 和 VREx 的不变性约束,即 LIRM=0mathcal{L}_{text{IRM}}=0LVREx=0mathcal{L}_{text{VREx}}=0 同时满足,且 LERMmathcal{L}_{mathrm{ERM}} 最小,从而引出所需的 OOD 解。然而,当不变特征和标签之间存在噪声时,理想的约束可能过于强大,这将未来扩大帕累托最优解集。因此,很自然地将约束放宽为 LIRM⩽ϵIRMmathcal{L}_{text{IRM}}leqslantepsilon_{text{IRM}}LVREx⩽ϵVRExmathcal{L}_{text{VREx}}leqslantepsilon_{text{VREx}}。当 ϵIRM→0,ϵVREx→0epsilon_{text{IRM}}rightarrow0,epsilon_{text{VREx}}rightarrow0 时,它恢复了理想的不变性。为了在这些情况下获得所需的解决方案,优化过程有望满足以下两个必要性:

  1. IRMX 中的额外目标可以使 Pareto 前沿更加复杂,从而更有可能在非凸部分出现所需的解,但是线性加权方案无法达到。因此,优化器需要能够在前面达到任何帕累托最优解,例如 MGDA 算法。

  2. ϵIRM>0,ϵVREx>0epsilon_{text{IRM}}>0,epsilon_{text{VREx}}>0 时,存在多个 Pareto 最优解,而期望 OOD 解很少。因此,通常需要选择 ERM 和 OOD 目标。由于每个 OOD 目标的最优性通常表现为令人满意的 OOD 绩效的必要条件,因此预期对 OOD 目标的偏好会更高。

2.3 恢复因果不变性

解决IRM优化挑战的有效解决方案

图 4. 恢复因果不变性。因果不变性 (定义3.1) 要求模型预测独立于重叠不变性特征中的虚假特征。在这个例子中直观地要求彩色带在 [−2,2][−2,2] 内垂直于x轴。可以发现 PAIR 成功地恢复了 IRMv1 和 VREx 的因果不变性。

  为了更好地理解 PAIR 如何弥合实际和原始 IRM 目标之间的差距,我们研究了 PAIR 在多大程度上可以在更困难的情况下恢复 Arjovsky 等人指定的因果不变量。更正式地说,因果不变性定义如下。

定义 2.1 (因果不变性) 给定一个预测器 f:=w∘ϕf:=wcircphi,由特征提取器 ϕphi 产生的表征在 Eallmathcal{E}_{all} 是满足不变性的当且仅当对于所有 e1,e2∈Ealle_1,e_2inmathcal{E}_{all},它满足

EDe1[Y∣φ(X)=z]=EDe2[Y∣φ(X)=z]mathbb{E}_{mathcal{D}_{e_1}}[Y mid varphi(X)=z]=mathbb{E}_{mathcal{D}_{e_2}}[Y mid varphi(X)=z]

  对于所有的 z∈Zφe1∩Zφe2z in mathcal{Z}_{varphi}^{e_1} cap mathcal{Z}_{varphi}^{e_2},其中 Zφe:={φ(X)∣(X,Y)∈supp⁡(De)}mathcal{Z}_{varphi}^e:=left{varphi(X) mid(X, Y) in operatorname{supp}left(mathcal{D}_eright)right}

  根据定义 3.1,我们构造一个回归问题。如图 4 所示,Y=sin⁡(X1)+1Y=sin(X_1)+1 仅由 x 轴的值 X1X_1 决定,y 轴的值为 X2X_2,不影响 YY 的值。不同的颜色表示不同的 YY 值。在这个问题中,ϕphi 的不变表示应该只取 X1X_1 而不取 X2X_2。我们对两个训练环境进行采样,用红色椭球表示,其中不变特征 X1X_1 的重叠区域为 [−2,2][−2,2]。因此,根据定义 3.1 的不变预测器产生的预测预计是独立于 X2X_2的。换句话说,绘制的带需要在重叠的不变特征内垂直于 x 轴 [−2,2][−2,2]。可以看出相较于 IRMv1 和 VERx,PAIR 几乎恢复了因果不变性。

3.Pareto Invariant Rsik Minimization,PAIR

3.1 最终的方法

IRM 案例中的关键要点

  总而言之,OOD 优化的失败可以归结为 :

  1. 使用非鲁棒目标进行优化
  2. 使用不可靠方案逼近期望的解。

  然而,我们可以通过引入额外的指导来提高 OOD 目标的鲁棒性,从而将期望的解决方案重新定位到相对于新目标的帕累托前沿。在获得要优化的鲁棒目标之后,我们利用偏好感知的 MOO 求解器,通过为 OOD 目标分配更高的偏好,同时尽可能保证 ERM 性能,从而找到最大限度地满足不变性约束的 Pareto 最优解。

  进行更正式的表述 : 假设 foodf_{text{ood}} 是期望的 OOD 解决方案,Fmathcal{F}foodf_{text{ood}} 的功能类别,如果一组 OOD 目标 Lood={Loodi}i=1mboldsymbol{L}_{mathrm{ood}}=left{mathcal{L}_{mathrm{ood}}^iright}_{i=1}^m 满足如下性质,则其是鲁棒的。

Lood (food )⪯Lood (f),∀f≠food ∈F(8)boldsymbol{L}_{text {ood }}left(f_{text {ood }}right) preceq boldsymbol{L}_{text {ood }}(f), forall f neq f_{text {ood }} in mathcal{F}tag{8}

  当给定一个鲁棒的 OOD 目标时,我们的目标是解决以下的 MOO 问题

min⁡f(LERM ,Lood )T(9)min _fleft(mathcal{L}_{text {ERM }}, boldsymbol{L}_{text {ood }}right)^Ttag{9}

  其中,Loodmathcal{L}_{mathrm{ood}} 对应于一个 ϵoodepsilon_{mathrm{ood}}-relaxed 的不变量约束 : Lood(food)=ϵood⪯Lood(f),∀f≠food∈Fmathcal{L}_{mathrm{ood}}(f_{mathrm{ood}})=epsilon_{mathrm{ood}}preceqmathcal{L}_{mathrm{ood}}(f),forall fne f_{mathrm{ood}}inmathcal{F}。将 ϵinvepsilon_{mathrm{inv}} 表示为使用底层不变特征预测标签的经验损失,则期望 OOD 的解相对于 Eq.(9) 的最优值为 (ϵinv ,ϵood )T=(LERM (food ),Lood (food ))Tleft(epsilon_{text {inv }}, boldsymbol{epsilon}_{text {ood }}right)^T=left(mathcal{L}_{text {ERM }}left(f_{text {ood }}right), boldsymbol{L}_{text {ood }}left(f_{text {ood }}right)right)^T,对应于目标的理想偏好 (或 OOD 偏好),即 pood =(ϵinv −1,ϵood −1)Tboldsymbol{p}_{text {ood }}=left(epsilon_{text {inv }}^{-1}, epsilon_{text {ood }}^{-1}right)^T。满足精确帕累托最优的 Eq.(9) 的最优解,即 pood iLi=pood jLj,∀Li,Lj∈Lboldsymbol{p}_{text {ood } i} mathcal{L}_i=boldsymbol{p}_{text {ood } j} mathcal{L}_j, forall mathcal{L}_i, mathcal{L}_j in boldsymbol{L},有望恢复 Eq.(8) 中的 foodf_{text{ood}}

PAIR-o 作为 OOD 泛化的优化器

  为了找到 poodp_{mathrm{ood}} 指定的期望帕累托最优解,我们采用两阶段优化方案,该方案包括两个阶段,即 “下降” 和 “平衡” 阶段,遵循常见的做法。

  在 “下降” 阶段,我们使用 ERM 损失训练模型,使其仅通过首先最小化 LERMmathcal{L}_{mathrm{ERM}} 接近帕累托前沿。然后,在 “平衡” 阶段,我们调整解决方案,最大限度地满足 poodp_{mathrm{ood}} 指定的精确帕累托最优性。我们采用现成的偏好感知 MOO 求解器 EPO 来寻找给定 poodp_{mathrm{ood}} 的期望 Pareto 最优解。具体来说,在每一步,poodp_{mathrm{ood}} 表示一个下降方向 gbg_b,它最大限度地增加对精确帕累托最优的匹配度。然后,我们将找到一个目标权重向量来重新加权 ERM 和 OOD 目标,使得重新加权的下降方向 gdscg_{dsc} 的最大角度为 gbg_b。同时,为了避免发散,gdscg_{dsc} 还需要保证它具有正角,目标偏离首选方向最多。我们在附录 D.1 中提供了算法的详细描述和理论讨论。

解决IRM优化挑战的有效解决方案

PAIR-s 用于 OOD 模型选择 OOD 泛化中的模型选择具有挑战性,因为用于评估模型性能的验证数据不再一定与测试数据具有相同分布。IRM 的例子也表明,传统的模型选择方法仅仅依赖于验证性能,即 ERM 性能,很容易由于与 ERM 目标的冲突而影响 OOD 的性能,特别是当验证集与测试集之间有很大的差距时。

  当没有给出额外的假设时,我们假设 OOD 损失值可以作为 OOD 性能的代理,这基本上对应于 OOD 方法中潜在的先验假设。它很自然地类似于 PAIR 优化,由此启发得到 PAIR-s 模型。PAIR-s 在模型选择中综合考虑并权衡 ERM 和 OOD 的性能,选择最符合 Pareto 最优的模型。

解决IRM优化挑战的有效解决方案

3.2 理论讨论与实践思考

  本质上讲,PAIR-o 和 PAIR-s 都是为了解决 Eq.(9),直到精确的帕累托最优。然而,在实践中,理想的偏好通常是未知的,而精确的帕累托最优可能过于严格而无法实现。因此,我们推导了 Eq.(9) 的 ϵepsilon-近似公式,即 ∣pood iLi−pood jLj∣⩽ϵ,∀Li,Lj∈Llvertboldsymbol{p}_{text {ood }_i} mathcal{L}_i-boldsymbol{p}_{text {ood }_j} mathcal{L}_j rvert leqslantepsilon,forallmathcal{L}_i,mathcal{L}_jinboldsymbol{L},这可能是独立的影响。在松弛变量的基础上,考虑到经验风险和不精确的 OOD 偏好,我们从样本复杂性的角度分析了 PAIR 的 OOD 性能。

定理 3.1 (非正式) 对于 γ∈(0,1)gammain(0,1) 和任意 ϵ,δ>0epsilon,delta>0,如果 Fmathcal{F} 是一个有限假设类,ERM 和 OOD 损失都在上面有界,设 IPAIRI_{PAIR} 为所有损失的指数,pmax⁡:=max⁡i∈IPAIRpip_{max }:=max _{i in I_{PAIR}} p_iLmax⁡:=max⁡i∈IPAIRLiL_{max }:=max _{i in I_{P A I R}} L_i,如果训练样本的数量 ∣D∣≥(32Lmax⁡2pmax⁡2/δ2)log⁡[2(m+1)∣F∣/γ]|D| geqleft(32 L_{max }^2 p_{max }^2 / delta^2right) log [2(m+1)|mathcal{F}| / gamma],那么 PAIR-o 和 PAIR-s 至少有 1−λ1-lambda 概率产生一个 foodf_{mathrm{ood}}ϵepsilon-近似解。

实际的考量 定理 3.1 建立了仅给定不精确 OOD 偏好的 PAIR-o 和 PAIR-s 的理论保证。根据经验,我们发现为 OOD 目标分配足够大的偏好通常足以让 PAIR-o 找到理想的 OOD 解决方案。例如,在大多数实验中,PAIR-o 对 ERM、IRMv1 和 VREx 产生了令人满意的 OOD 解,相对偏好为 (1,1e10,1e12)(1,1e10,1e12)。对于 PAIR-s,我们可以从运行历史中估计 (ϵinv,ϵood)(epsilon_{inv},epsilon_{ood}) 的经验上界,并将 OOD 偏好调整得稍大一些。

  此外,当部署到具有大量参数的模型时,PAIR-o 中对整个网络梯度的要求可能成为瓶颈。为此,我们可以只使用分类器 ww 的梯度来求解目标权值,或者在 “下降” 阶段后冻结特征器,以进一步减少资源需求。

4.实验

  略

5.总结

  这篇工作整体来说非常扎实,虽然从帕累托优化的角度来解决 IRM 问题的思路显得有些中规中矩 (甚至还将 IRMv1 和 VREx 叠 buff 叠在了一起),但是补充的大量证明和实验都比较充分,感觉仔细研究研究还是有较多收获的。

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

基因遗传算法及其应用

2023-12-13 16:14:14

AI教程

大恒图像基于百度飞桨AI算法实现新能源汽车电池隔膜质检

2023-12-13 16:19:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索