模型的重要性以及最大熵模型
1.对于模型:
i.一个正确的模型应当在形式上是简单的
ii.一个正确的模型一开始可能还不如一个精雕细琢过的错误模型来的准确,但是,如果我们认为大方向是对的,就应该坚持下去
iii.大量准确的数据对研发很重要
iv.正确的模型受噪音的干扰,显得不准确,此时不应该用一种凑合的修正方法来弥补它,而是要找到噪音的根源,这也许能通往重大的发现、
逆文本词频和网页排名可以看做是网页搜索中的“椭圆模型”
2.最大熵原理和模型:
i.原理:在对一个随机事件的概率分布进行预测时,我们的预测应该满足全部已经的条件,对未知的情况不要做任何主观的假设;在这种情况下,概率分布最均匀,预测的风险最小,而此时概率分布的信息熵最大,称为“最大熵模型”
ii.模型:
W1,W2是要预测的词W3的前两个词,S为文章主题
模型是,其中Z是归一化因子,保证概率加起来等于1,而参数需要通过观测数据训练出来
3.模型的计算:
i.模型:
搜索的排序需要考虑20种特征,{X1,X2,...,X20},需要排序的网页是d,那么即使这样特征互相独立,对于的最大熵模型也是很长的:
ii.原始的训练方法:
通用迭代算法GIS(Generalized Iterative Scaling):
a.假定第0次迭代的初始模型为等概率的均匀分布;
b.第N次迭代的模型来估算每种信息特征在训练数据中的分布,如果超过的实际的,就把模型参数变小,否则,将它们变大
c.重复步骤2知道收敛
iii.改进:
IIS-->www.cs.jhu.edu/junwu/publications.html
iv.在股票市场的应用:
股票的涨落有几百种因素构成,最大熵方法恰恰能找到一个同时满足不同条件的模型