机器学习题目

训练数据集中的每个样本用n维向量表示，第n维数据的值是0或者1，建立分类算法，对于新的给定样本，已知向量前n-1维数据，预测向量最后一维的值。

1）数据中关系到选择或者建立分类算法的2个最重要的属性是什么？为什么？

2）现在已知两个分类算法，第一个算法训练花费时间5h,预测每个样本时间为1.5ms, 正确率86%; 第二个算法，训练花费时间30min,预测每个样本时间为2.5ms, 正确率95%, 应该选择哪个，为什么？

1、两个最重要的属性我认为是目标变量的离散还是连续以及前n-1维变量中是否存在连续值。这会影响到分类算法的选择。
2、根据需要预测的样本数量和对正确率的要求来选择。预测效率降低了66%，准确率只提高了10%。

posted on 2015-06-04 11:30 keketse 阅读(130) 评论(0) 编辑收藏举报

刷新页面返回顶部

lbingkuai