正好前段时间读了这篇论文 [Kawaguchi, 2018],就聊一聊我自己的想法。
读这篇文章之前,一定要去重新看一遍 [Kawaguchi, 2017],因为在 v3 的版本中 Kawaguchi 几乎重写了原文的主要内容,将文章的中心由原来三个部分中的第两个部分进行了补充和解释,并将第一个部分留到了最后、第三个部分(正则项 DARC1)给挪到了附录。之前和 Kenji 聊的时候他也提到过此事,原本他是准备把这篇投去 AAAI 的,但是Radmacher 复杂度作为正则项的理论可靠性并不清晰,而且实际效果很一般,我试着用他的 DARC1 顺手在 ImageNet 上跑过几次,观察不到实际效果,用中文来讲,这部分内容基本上就是「口胡」。他跟我说是准备花时间好好做一下修正,推广一下这里的内容,我想 [Kawaguchi, 2018] 就是他口里的推广吧。于是你可以看到这篇论文的 v3 实在 [Kawaguchi, 2018] 发出来之后提交的,也就是在完善想法之后重新修订过的版本。
如果认真读一读那篇论文的中关于 Data-dependent 和 Data-independent 的讨论就会发现目前这篇新论文的想法来源。
总的来说,我们知道 Vapnik 的统计学习理论考虑的是普适性的理论,希望用一套理论来囊括全部数据集的情况,这样就导致了我们对随机变量的研究。然而对于实际问题而言,数据集通常是高度集中的高维流形,具体问题的数据集彼此可能并无交集可言。那么根据集中不等式得出来的结果就可能使得 bound 被放得很大。在 [Kawaguchi 2017] 中,对 bound的研究是建立在ReLU网络上的,尤其是 Data-dependent 的 bound 对 dataset 定义了一个度量。
这就启发我们在考虑一个具体概率测度的时候将问题搬到一个对于具体问题而言具体的测度空间上进行讨论,并且把 GG 定义成 $(\mu, S_m, Z_{m’}, L)$,而经验分布就是定义在 $Z_{m’}$ 上的损失$L$的期望。这点很容易让人疑惑: $S_m$ 和 $Z_{m’}$ 同是给定的数据集有什么区别?我们考虑经验风险时通常考虑的是整个数据集 S 的损失的期望。m这就引出了对数据集和对假设函数质量的定义。
参考文献
[Kawaguchi, 2017] [Kawaguchi, 2018]