lemur run PLSA
1.建索引
trec文档的最后一个</DOC>标记后一定要有换行。
建索引可以选用buildindex.exe,或者indribuildindex.exe。然后要说明的是,索引参数文件里有索引类型一项。<indexType> key(或indri)</indexType>。当用buildindex.exe时,建成的两种类型的索引文件是不一样的,甚至以后的概率表结果也有影响(但我不确定);而用indribuildindex.exe时,两种类型好像没啥区别。
2.训练三个概率表(train probability tables p_z.bin, p_z_d.bin, p_w_z.bin)
plsa的参数文件中,索引路径<index></index>,如果索引是indri类型的,则路径就是索引路径;如果是key类型的,则路径末尾要加上.key。
<doTrain></doTrain>是true。运行后的结果是产生三个二进制文件,分别是 p_z.bin, p_z_d.bin, p_w_z.bin。这三个文件的存储路径是相对路径,具体如何确定,我还不确定。
3.显示概率
只要把plsa参数文件中的<doTrain></doTrain>设为false,运行后即显示概率结果。
**************************************************************
我喜欢程序员,他们单纯、固执、容易体会到成就感;面对困难,能够不休不眠;面对压力,能够迎接挑战。他们也会感到困惑与傍徨,但每个程序员的心中都有一个比尔盖茨或是乔布斯的梦想,用智慧把属于自己的事业开创。其实我是一个程序员[=.=]
我喜欢程序员,他们单纯、固执、容易体会到成就感;面对困难,能够不休不眠;面对压力,能够迎接挑战。他们也会感到困惑与傍徨,但每个程序员的心中都有一个比尔盖茨或是乔布斯的梦想,用智慧把属于自己的事业开创。其实我是一个程序员[=.=]