周志华眼中的贝叶斯方法(转)
对Bayesian一类的东西,除了 NB、AODE等少数几个接近 discriminative 的,我都不是很感冒。并不是看不上那些技法,有时其实还是相当欣赏那些精巧的设计。不感冒的原因,主要是觉得里面的唯心味道太重了。生长在新中国红旗下, 自认为是唯物论者,对唯心的东西有一种心理上的天然抵触。
唯心不能怪老贝,他做Bayes公式本来就是为了证明上帝的存在,没有唯心味道反倒怪了。Prior 的选取,如果是针对具体应用,倒也没什么,根据 domain knowledge 设计 prior 本来是 incorporate domain knowledge 的有效途径,是好事不是坏事。问题是,好多 Bayesian fans 都标榜自己做得多基础,根本就不 care 具体应用领域,或许其实本身就对应用没感觉(应用要做得好,一定要对应用有“感觉”)。普适的 prior 本不存在,不考虑具体 domain 就只能形而上地去折腾,然后挑几个数据发发文章,实际可能一点用没有。或许一些人本来的目的就是为了发文章而不是解决问题。
如果最终目标是预测,我总觉得,就算数据真是由某个 generative model 生成的,能够导致分类性能好的 model 也未必一定是那个 ground-truth model。就好象 manifold 一样,把 ground-truth manifold 扭曲一点说不定分类更好做,05年的那个TSMCB文章就想说这件事。
其实 Bayesian fans 自己也知道要改良。固定参数不好,就整个 Chinese Restaurant Process 搞非参。假设 Gaussian 太随意,就来个 dirichlet 考虑分布的分布。“分布的分布”还觉得味道不好,就再整个 hierarchical dirichlet 玩“分布的分布的分布”。要我说,你怎么知道该加几层啊?说不定要“分布的分布的分布的分布”?遇到 MJ 问他,说还没想到怎么办。我觉得大可以在分布方向上再开个 Restaurant,计算问题似乎也不大,应该可以 marginalize。一般数据上大概显不出好处来,找几个很复杂的数据 show 一把发个 NIPS 估计是可以的,因为这玩意儿很合 NIPS 的口味。不过我自己实在没兴趣做。有谁想玩玩可以跟我说一声。
把 discrimitive 的东西放进去,唯心成分应该会小一些。没和 EX 聊过这个问题,看他这两年走的路子,有可能是所见略同。