【机器学习实践(1)】配置python编程环境
机器学习实践这一系列文章,是作者参考一些有价值的机器学习实践实例后的总结。
和网上最多的机器学习文章的最大区别是:这一系列文章,都立足于代码实现和实际效果展现。
大部分文章会使用python实现算法。欢迎转载,转载时请注明出处:转自 “Miner帆的博客《数据火花》:http://blog.csdn.net/dataspark "
为什么选择python?
作为一种看似简洁却内涵丰富的语言,python本身在机器学习/数据挖掘方面并没有什么优势。python虽然形式简单,但繁琐的语法细节让我觉得它的学习成本并不低。
但scipy(http://www.scipy.org/)等强大的第三方库,让python在机器学习方面得心应手。
坦白而言,我对python没有什么特别的好感,甚至在相当长时间里,我排斥学习python(毕竟已经用了10多年的C/C++,加上一些轻量级脚本语言,几乎完全够用了)。但由于scipy系列库,让python成为我眼中最强大的(至少比R更强大)免费科学计算工具。做数据挖掘调研时,python几乎是不二选择。
但使用这些科学计算相关的库,可能会带来一些不适:
1. 科学计算的编程风格,可能会与纯正的面向对象相悖,在实际使用中,为了利用强大的计算工具,我们可能会把一些数据结构封装得比较简陋;
2. 增加了额外的学习成本,这些科学计算库里大量的数据结构和方法(相当一部分方法还比较晦涩),需要花更多时间去掌握。
尽管这样,python的学习成本也不会比matlab高,对于新的matlab工具箱,你不还是需要额外的学习成本么?
为什么选择python?
1. 因为scipy、numpy、matplot……这些,让它在数据分析时,非常强大;
2. python vs matlab: ptyhon免费
3. python vs R: python是一门真正的计算机语言。R更适合统计学家玩, python更适合程序员用(比如字符串处理等基本操作,还是交给真正的计算机语言处理吧)。
此外,在版本上,选择了使用更广泛的python2.x(目前是2.7.5)而不是3.x。
选择工作环境
我本身更倾向于linux环境下写程序,但由于在调研阶段,需要有不少可视化分析,windows比linux更适合可视化。
eclipse,因为它的通用性,还因为它免费。pydev插件使能自由地处理python编程。
感谢一些集成发布出来的工具,像winpython ,它集成 了scipy、numpy、matplot等我们需要的科学计算库。这让我们不必安装python后,再一个一个地安装需要的库,还可能会遇到库的依赖和版本兼容问题。
配置工作环境
1. 安装winpython
2. 安装eclipse + pydev
安装方法:
1). 到 http://www.eclipse.org/ 下载eclipse最新版本的压缩包,如果下载速度过慢,你可以到我的网盘来获取:http://pan.baidu.com/share/link?shareid=1468424775&uk=939810364
2). 解压eclipse压缩包,即可使用;
3). 在http://marketplace.eclipse.org/ 中搜索PyDev插件,点击绿色的向下箭头,获取插件所在站点,当前最新的是http://pydev.org/updates/。运行eclipse,利用 Eclipse Update Manager 安装 PyDev。在 Eclipse 菜单栏中找到 Help栏,选择 Help > Install New Software
或
3'). 在 Eclipse 菜单栏中找到 Help栏,选择 Help > eclipse marketplace, 搜索PyDev,在结果中点击Install
当有许可条款出现时,记得点“同意”。