……

上一页 1 ··· 19 20 21 22 23 24 25 26 27 ··· 36 下一页
2020年6月18日
摘要: Numpy代表numeric python,是一个用于计算、处理多维数组的python包。 NumPy包由Travis Oliphant在2005年创建,基于原来的Numeric模块与Numarray模块,大部分是用c语言编写的。 NumPy提供各种强大的数据结构(多维数组和矩阵),以及对这些数据结 阅读全文
posted @ 2020-06-18 18:04 大码王 阅读(333) 评论(0) 推荐(0) 编辑
摘要: Scikit-learn是一个开源Python库,它使用统一的接口实现了一系列机器学习、预处理、交叉验证和可视化算法。 一个基本例子 from sklearn import neighbors, datasets, preprocessing from sklearn.model_selection 阅读全文
posted @ 2020-06-18 17:55 大码王 阅读(351) 评论(0) 推荐(0) 编辑
摘要: 前面章节尝试了K均值聚类模型,准确率并不高。接下来我们尝试一种新方法:支持向量机(SVM)。 支持向量机 支持向量机(support vector machine/SVM),通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸 阅读全文
posted @ 2020-06-18 17:42 大码王 阅读(1092) 评论(0) 推荐(1) 编辑
摘要: 到目前为止,我们已经非常深入地了解了数据集,并且把它分成了训练子集与测试子集。 接下来,我们将使用聚类方法训练一个模型,然后使用该模型来预测测试子集的标签,最后评估该模型的性能。 聚类(clustering)是在一组未标记的数据中,将相似的数据(点)归到同一个类别中的方法。聚类与分类的最大不同在于分 阅读全文
posted @ 2020-06-18 17:21 大码王 阅读(705) 评论(0) 推荐(0) 编辑
摘要: 前面章节中,我们首先加载数据,接着查看数据集的基本信息,然后可视化数据进一步查看数据集信息。接下来,我们开始处理数据,但这之前,通常需要预处理数据。 数据标准化 大型数据分析项目中,数据来源不同,量纲及量纲单位不同,为了让它们具备可比性,需要采用标准化方法消除由此带来的偏差。原始数据经过数据标准化处 阅读全文
posted @ 2020-06-18 17:18 大码王 阅读(565) 评论(0) 推荐(0) 编辑
摘要: 主成分分析(PCA)是一种常用于减少大数据集维数的降维方法,把大变量集转换为仍包含大变量集中大部分信息的较小变量集。 减少数据集的变量数量,自然是以牺牲精度为代价的,降维的好处是以略低的精度换取简便。因为较小的数据集更易于探索和可视化,并且使机器学习算法更容易和更快地分析数据,而不需处理无关变量。 阅读全文
posted @ 2020-06-18 17:13 大码王 阅读(4750) 评论(0) 推荐(0) 编辑
摘要: digits是一个手写数字的数据集,我们可以使用Python的数据可视化库,比如matplotlib,来查看这些手写数字图像。 示例 显示digits.images中的手写数字图像。 from sklearn import datasets # 加载 `digits` 数据集 digits = da 阅读全文
posted @ 2020-06-18 17:12 大码王 阅读(1416) 评论(0) 推荐(0) 编辑
摘要: 前面章节中,我们加载了SciKit-Learn自带的数据集digits,可以通过以下语句查看数据集中包含哪些主要内容: digits.keys() 输出 dict_keys(['data', 'target', 'target_names', 'images', 'DESCR']) data 样本数 阅读全文
posted @ 2020-06-18 17:08 大码王 阅读(759) 评论(0) 推荐(0) 编辑
摘要: 机器学习是计算机科学的一个分支,研究的是无需人类干预,能够自己学习的算法。 与TensorFlow不同,Scikit-learn(sklearn)的定位是通用机器学习库,而TensorFlow(tf)的定位主要是深度学习库。 数据科学中的第一步通常都是加载数据,我们首先学习怎么使用SciKit-Le 阅读全文
posted @ 2020-06-18 17:05 大码王 阅读(2558) 评论(0) 推荐(0) 编辑
摘要: 如果你从来没有使用过机器学习,你会想,这个不就是编程吗?或者,到底机器学习是什么?首先,我们确实是使用编程语言来实现机器学习模型,我们跟计算机其他领域一样,使用同样的编程语言和硬件。但不是每个程序都用了机器学习。对于第二个问题,精确定义机器学习就像定义什么是数学一样难,但我们试图在这章提供一些直观的 阅读全文
posted @ 2020-06-18 15:08 大码王 阅读(344) 评论(0) 推荐(0) 编辑
摘要: 近年来,随着科技的快速发展,人工智能不断进入我们的视野中。作为人工智能的核心技术,机器学习和深度学习也变得越来越火。一时间,它们几乎成为了每个人都在谈论的话题。那么,机器学习和深度学习到底是什么,它们之间究竟有什么不同呢? 什么是机器学习? 机器学习(Machine Learning,ML)是人工智 阅读全文
posted @ 2020-06-18 14:33 大码王 阅读(303) 评论(0) 推荐(0) 编辑
摘要: 人工智能的浪潮正席卷全球,诸多词汇时刻萦绕在我们的耳边,如人工智能,机器学习,深度学习等。“人工智能”的概念早在1956年就被提出,顾名思义用计算机来构造复杂的,拥有与人类智慧同样本质特性的机器。经过几十年的发展,在2012年后,得益于数据量的上涨,运算力的提升和机器学习算法(深度学习)的出现,人工 阅读全文
posted @ 2020-06-18 14:28 大码王 阅读(883) 评论(0) 推荐(0) 编辑
摘要: 机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法,以供您在工作和学习中参考。 机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家 阅读全文
posted @ 2020-06-18 14:13 大码王 阅读(1434) 评论(1) 推荐(0) 编辑
摘要: 自从科学,技术和人工智能的最初立场出发,跟随布莱斯·帕斯卡(Blaise Pascal)和冯·莱布尼兹(Von Leibniz)的科学家们在思考这种机器具有与人类一样多的智力。儒勒·凡尔纳(Jules Verne),弗兰克·鲍姆(Frank Baum,绿野仙踪),玛丽·雪莉(Frankkenstei 阅读全文
posted @ 2020-06-18 14:10 大码王 阅读(314) 评论(0) 推荐(0) 编辑
摘要: 一、随机森林算法简介: 在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而 "Random Forests" 是他们的商标。 这个术语是1995年由贝尔实验室的Tin 阅读全文
posted @ 2020-06-18 09:50 大码王 阅读(1724) 评论(0) 推荐(0) 编辑
2020年6月17日
摘要: ID3,C4.5算法缺点 ID3决策树可以有多个分支,但是不能处理特征值为连续的情况。 在ID3中,每次根据“最大信息熵增益”选取当前最佳的特征来分割数据,并按照该特征的所有取值来切分, 也就是说如果一个特征有4种取值,数据将被切分4份,一旦按某特征切分后,该特征在之后的算法执行中, 将不再起作用, 阅读全文
posted @ 2020-06-17 18:56 大码王 阅读(1867) 评论(1) 推荐(0) 编辑
摘要: ID3算法缺点 它一般会优先选择有较多属性值的Feature,因为属性值多的特征会有相对较大的信息增益,信息增益反映的是,在给定一个条件以后,不确定性减少的程度, 这必然是分得越细的数据集确定性更高,也就是条件熵越小,信息增益越大。为了解决这个问题,C4.5就应运而生,它采用信息增益率来作为选择分支 阅读全文
posted @ 2020-06-17 18:55 大码王 阅读(1272) 评论(0) 推荐(0) 编辑
摘要: 应用实例: 你是否玩过二十个问题的游戏,游戏的规则很简单:参与游戏的一方在脑海里想某个事物,其他参与者向他提问题,只允许提20个问题,问题的答案也只能用对或错回答。问问题的人通过推断分解,逐步缩小待猜测事物的范围。决策树的工作原理与20个问题类似,用户输人一系列数据,然后给出游戏的答案。如下表 假如 阅读全文
posted @ 2020-06-17 18:53 大码王 阅读(350) 评论(0) 推荐(0) 编辑
摘要: 基本思路 Adaboost体现的是“三个臭皮匠,胜过一个诸葛亮”,它是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器), 然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。训练过程如下(参考Andy的机器学习--浅析Adaboost算法,他说得非常形象,贴切。) 阅读全文
posted @ 2020-06-17 18:51 大码王 阅读(697) 评论(0) 推荐(0) 编辑
摘要: 1. KNN原理 KNN(k-Nearest Neighbour):K-近邻算法,主要思想可以归结为一个成语:物以类聚 1.1 工作原理 给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的 k (k <= 20)个实例,这 k 个实例的多数属于某个类, 就把该输入实例分为这个类。 阅读全文
posted @ 2020-06-17 18:46 大码王 阅读(785) 评论(0) 推荐(0) 编辑
上一页 1 ··· 19 20 21 22 23 24 25 26 27 ··· 36 下一页
复制代码