摘要: PCA是一种非监督学习算法,它能够在保留大多数有用信息的情况下,有效降低数据纬度。它主要应用在以下三个方面:1. 提升算法速度2. 压缩数据,减小内存、硬盘空间的消耗3. 图示化数据,将高纬数据映射到2维或3维总而言之,PCA干的事情就是完成一个将原始的n维数据转化到k维的映射。其中,k<n它的核心... 阅读全文
posted @ 2014-12-10 16:26 KevinHwang 阅读(1782) 评论(0) 推荐(0) 编辑
摘要: 当我们没有带数据线却将手机上的文件共享到电脑上时,架个简单的FTP服务器可以帮我们快速解决问题。以共享手机里的照片为例:首先将电脑、手机接入同一个wifi。然后,手机上用QPython执行以下脚本(不要关闭它,否则ftp服务也会关闭)import osimport SimpleHTTPServe... 阅读全文
posted @ 2014-12-08 11:43 KevinHwang 阅读(554) 评论(0) 推荐(0) 编辑
摘要: K-Means需要设定一个簇心个数的参数,现实中,最常用于确定K数的方法,其实还是人手工设定。例如,当我们决定将衣服做成几个码的时候,其实就是在以人的衣服的长和宽为为特征进行聚类。所以,弄清楚我们更在意的是什么,能够引导选择更合适的K值。 有种方法能自动决定K值,也就是所谓的Elbow Met... 阅读全文
posted @ 2014-12-07 16:12 KevinHwang 阅读(1407) 评论(0) 推荐(0) 编辑
摘要: K-Means的中心初始化惯用方式是随机初始化。也就是说:从training set中随机挑选出K个作为中心,再进行下一步的K-Means算法。 这个方法很容易导致收敛到局部最优解,当簇个个数(K)较小(2<K<10)时,我们可以重复多次K-Means,记录下他们的每个的cost functi... 阅读全文
posted @ 2014-12-07 15:40 KevinHwang 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 当我们对某些问题进行分类时,真实结果的分布会有明显偏差。例如对是否患癌症进行分类,testing set 中可能只有0.5%的人患了癌症。此时如果直接数误分类数的话,那么一个每次都预测人没有癌症的算法也是性能优异的。此时,我们需要引入一对新的判别标准:Precision/Recall来进行算法的性能... 阅读全文
posted @ 2014-12-06 15:23 KevinHwang 阅读(1016) 评论(0) 推荐(0) 编辑
摘要: 在android上,我们可以使用QPython来编写、执行Python脚本。它对很多android系统函数进行了方便的封装,使用QPython编写功能简单的小程序异常方便。 这个示例是我之前用来读取手机位置信息并作为进一步处理数据的基础脚本。# -*- coding: utf-8 -*-imp... 阅读全文
posted @ 2014-12-04 21:52 KevinHwang 阅读(2738) 评论(0) 推荐(0) 编辑
摘要: 当我们成功实现一个机器学习算法并将其用于解决实际问题时,常常会发现它的性能(分类、回归准确度)达不到我们足够满意的状态。在这种情况下,我们有以下六种选项来提高当前算法的性能1 增加training set的数目 这种方法适合模型发生过拟合的情况2 减小feature的数量(使用更少featur... 阅读全文
posted @ 2014-12-03 17:12 KevinHwang 阅读(270) 评论(0) 推荐(0) 编辑
摘要: 1. 建表、列时在phpmyadmin中将编码设置为utf8_general_ci2. python中使用sql连接时设定charset为utf8,注意不能是utf-8!例如:def Connect(): con = MySQLdb.connect(host=HOST,user=USER,pa... 阅读全文
posted @ 2014-12-01 19:00 KevinHwang 阅读(250) 评论(0) 推荐(0) 编辑
摘要: 比较简单明了,直接上例子# -*- coding: utf-8 -*-t0 = u'测试' #u'\u6d4b\u8bd5't1 = '测试' #'\xe6\xb5\x8b\xe8\xaf\x95't3 = t0.encode('u8') #'\xe6\xb5\x8b\xe8\xaf\x95... 阅读全文
posted @ 2014-12-01 18:50 KevinHwang 阅读(270) 评论(0) 推荐(0) 编辑
摘要: 不管是做回归还是做分类,我们初次得到的模型常常都不是非常合理,模型本身是过拟合还是欠拟合对进一步修正模型有重要的指导意义,下面我们来谈谈如何判断一个模型是欠拟合还是过拟合。 首先,我们明确一下什么是过拟合和欠拟合。 欠拟合(bias/underfit)如最左图所示,指得到的模型对traini... 阅读全文
posted @ 2014-12-01 16:40 KevinHwang 阅读(3211) 评论(0) 推荐(0) 编辑