题目描述:

数据集包含1000个样本,其中500个正例,500个反例,将其划分成包含70%样本的训练集和30%样本的测试集用于留出法评估,试估算共有多少种划分方式。

解答:

留出法就是简单地把训练集\(D\)划分成两个互斥的集合,其中一个为训练集\(S\),一个为测试集\(T\),则\(D=S\cup T\)\(S\cap T=\emptyset\)。同时要采用分层抽样的方法,即训练集中正反例的比要(约)等于测试集中正反例的比。
其实就相当于从500个正例中取\(500\times 70\%=350\)个正例,剩下正例放进测试集;从500个反例中取350个反例,剩下反例放进测试集。用排列组合中的组合数,则划分方法为

\[C_{500}^{350} \times C_{500}^{350} \approx 1.4\times 10^{298} \]

可以看出这个数字很大,常见的说法就是“比地球上所有沙子还多”。