机器学习实战---学习笔记(第一章)
开发机器学习应用程序的步骤:
1.收集数据。 途径包括:制作网络爬虫、设备发过来的测试数据等。
2.准备输入数据。主要内容为验证数据格式等
3.分析数据。主要内容为确认是否有垃圾数据。 需要人工干预,若数据可靠,可直接跳过此步。
4.训练算法。将前两步得到的格式化数据输入到算法,从中抽取知识和信息。得到的知识存储为计算机可以处理的格式。若是无监督学习算法,由于不存在目标变量值,故而不需要训练算法。
5.测试算法。实际使用第4步机器学习得到的知识信息。为评估算法,必须测试算法工作的效果。对于监督学习,必须已知用于评估算法的目标变量值;对于无监督学习,也必须用其他的评测手段来检测算法的效率。无论哪种情形,如果不满意算法的输出结果,则可以回到第4步,改正并加以测试。问题常常会跟数据的收集和准备有关,这时你就必须跳回到第1步重新开始。
6.使用算法。将机器学习算法转换为应用程序,执行实际任务,以检验上述步骤是否可以在实际环境中正常工作。
此时如果碰到新的数据问题,同样需要重复执行上述的步骤。