随笔分类 -  机器学习&数据挖掘

摘要:原文链接:https://www.dominodatalab.com/blog/spark-dask-ray-choosing-the-right-framework 翻译:Tacey Wong Spark、Day、Ray:历史概要 Apache Spark Spark由加州大学伯克利分校AMPLa 阅读全文
posted @ 2022-08-09 18:27 Tacey Wong 阅读(5050) 评论(0) 推荐(2) 编辑
摘要:网上流传的一张路径图,最初出处为http://nirvacana.com/thoughts/becoming-a-data-scientist,清明放假,在原版基础上制作了一张中文的版本。可能没什么用,只是感觉中文看起来更直接明了一些。 阅读全文
posted @ 2017-04-02 19:08 Tacey Wong 阅读(5491) 评论(2) 推荐(2) 编辑
摘要:本例展示怎样在一个管道中使用FunctionTransformer.如果你知道你的数据集的第一主成分与分类任务无关,你可以使用FunctionTransformer选取除PCA转化的数据的第一列之外的全部数据. 阅读全文
posted @ 2016-10-05 21:13 Tacey Wong 阅读(3253) 评论(0) 推荐(0) 编辑
摘要:It shows how to use and to approximate the feature map of an RBF kernel for classification with an SVM on the digits dataset. Results using a linear S 阅读全文
posted @ 2016-10-05 20:18 Tacey Wong 阅读(1124) 评论(0) 推荐(0) 编辑
摘要:[占位 未完成]scikit learn一般实例之十一:异构数据源的特征联合 Datasets can often contain components of that require different feature extraction and processing pipelines. Th 阅读全文
posted @ 2016-10-05 20:11 Tacey Wong 阅读(433) 评论(0) 推荐(0) 编辑
摘要:[占位 未完成]scikit learn一般实例之十:核岭回归和SVR的比较 阅读全文
posted @ 2016-10-05 20:07 Tacey Wong 阅读(1055) 评论(0) 推荐(0) 编辑
摘要:Johnson–Lindenstrauss 引理表明任何高维数据集均可以被随机投影到一个较低维度的欧氏空间,同时可以控制pairwise距离的失真. 理论边界 由一个随机投影P所引入的失真是确定的,这是由于p定义了一个esp embedding.其概率论定义如下: u和v是从一个形状是[n样例,n特 阅读全文
posted @ 2016-10-05 20:03 Tacey Wong 阅读(1373) 评论(0) 推荐(0) 编辑
摘要:本例模拟一个多标签文档分类问题.数据集基于下面的处理随机生成: + 选取标签的数目:泊松(n~Poisson,n_labels) + n次,选取类别C:多项式(c~Multinomial,theta) + 选取文档长度:泊松(k~Poisson,length) + k次,选取一个单词:多项式(w~M 阅读全文
posted @ 2016-10-05 19:30 Tacey Wong 阅读(15318) 评论(0) 推荐(0) 编辑
摘要:本例将展示使用多输出评估期来实现图像完成.目标是根据给出的上半部分人脸预测人脸的下半部分. 第一列展示的是真实的人脸,接下来的列分别展示了随机森林,K近邻,线性回归和岭回归对人脸下半部分的预测. 阅读全文
posted @ 2016-10-04 23:11 Tacey Wong 阅读(799) 评论(0) 推荐(0) 编辑
摘要:本例将会展示对确实值进行填充能比简单的对样例中缺失值进行简单的丢弃能获得更好的结果.填充不一定能提升预测精度,所以请通过交叉验证进行检验.有时删除有缺失值的记录或使用标记符号会更有效. 缺失值可以被替换为均值,中值,或使用 超参数最高频值.中值是对于具有可以主宰的高强度值数据是有较好鲁棒性的评估期( 阅读全文
posted @ 2016-10-04 21:48 Tacey Wong 阅读(1423) 评论(0) 推荐(0) 编辑
摘要:本例构建一个管道来进行降维和预测的工作:先降维,接着通过支持向量分类器进行预测.本例将演示与在网格搜索过程进行单变量特征选择相比,怎样使用GrideSearchCV和管道来优化单一的CV跑无监督的PCA降维与NMF降维不同类别评估器。 (原文:This example constructs a pi 阅读全文
posted @ 2016-10-04 21:16 Tacey Wong 阅读(9592) 评论(0) 推荐(1) 编辑
摘要:主成分分析(PCA)进行无监督的降维,而逻辑回归进行预测. 我们使用 来设置PCA的维度 绘制PCA图谱 预测 阅读全文
posted @ 2016-10-04 20:46 Tacey Wong 阅读(1470) 评论(0) 推荐(0) 编辑
摘要:在很多现实世界的例子中,有很多从数据集中提取特征的方法.很多时候我们需要结合多种方法获得好的效果.本例将展示怎样使用 通过主成分分析和单变量选择相进行特征结合. 结合使用转换器的好处是它允许在整个过程中进行交叉验证和网格搜索。 在本例中数据集上使用组合的方法并没有什么实际作用,仅用来展示怎么使用 阅读全文
posted @ 2016-10-04 16:24 Tacey Wong 阅读(1824) 评论(0) 推荐(0) 编辑
摘要:本实例展示怎样使用 来可视化预测错误: python coding:utf 8 from pylab import from sklearn import datasets from sklearn.model_selection import cross_val_predict from skle 阅读全文
posted @ 2016-10-04 15:19 Tacey Wong 阅读(1753) 评论(0) 推荐(0) 编辑
摘要:原文网址:http://scikit learn.org/stable/tutorial/text_analytics/working_with_text_data.html 翻译:Tacey Wong 时间: 2016 9 25 本教程的主要目标是通过分析包含二十个不同话题的文档集合这以实际任务, 阅读全文
posted @ 2016-09-25 22:17 Tacey Wong 阅读(6704) 评论(0) 推荐(1) 编辑
摘要:+ http://gold.xitu.io/entry/5760c8446be3ff006a02720b?from=timeline&isappinstalled=1 阅读全文
posted @ 2016-08-15 16:06 Tacey Wong 阅读(206) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2016-05-04 13:36 Tacey Wong 阅读(1330) 评论(0) 推荐(0) 编辑
摘要:用2263份证件照图片样本测试how-old.net的人脸识别 阅读全文
posted @ 2016-04-30 22:46 Tacey Wong 阅读(5565) 评论(4) 推荐(1) 编辑
摘要:第六章:定制IPython 对于高级用户,IPython可以进行定制和扩展。在本章结束之后,你将会知道: + 怎样创建和使用自定义配置文件 + 怎样为高级功能进行IPython扩展 + 怎样在notebook中使用不同的语言 + 怎样创建自己的扩展 + 怎样使用丰富的前端 + 怎样把IPython嵌 阅读全文
posted @ 2016-04-01 21:44 Tacey Wong 阅读(2230) 评论(0) 推荐(0) 编辑
摘要:第五章:高性能并行计算 一个反复被提及的反对使用Python进行高性能数值计算的言论是这种语言是动态解释型的,速度太慢。一种编译型低级语言,如C,能提供比它快几个数量级的运算速度。我们在第三章—— 使用IPython进行数值计算 中已经引入了 向量化 这一概念表示了对这种观点的反对。NumPy 数组 阅读全文
posted @ 2016-04-01 21:42 Tacey Wong 阅读(1719) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示