摘要:
先来看看这份科比生涯的数据集:数据集下载 这个表格记录了科比30000多个镜头的详细数据,共有25个标签。 具体的设计思路是将这25个标签代表的数据进行分析,找出对科比投篮结果有影响的标签,利用机器学习中随机森林的算法训练出可以预测科比是否能够投篮命中的模型。 先来看看这25个标签具体代表什么(自己 阅读全文
摘要:
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom matplotlib.colors import ListedColormapfrom numpy.random import seedclass Ada 阅读全文
摘要:
众所周知,深度学习正逐渐获得越来越多的关注,并且毫无疑问成为机器学习领域最热门的话题。 深度学习可以被看作是一组算法的集合,这些算法能够高效地进行多层人工神经网络训练。 在本章,读者将学习人工神经网络的基本概念,并且接触到新近基于Python开发的深度学习库,从而更进一步去探索机器学习研究领域中这一 阅读全文
摘要:
在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式, 阅读全文
摘要:
Word2vec 是一种计算效率特别高的预测模型,用于学习原始文本中的字词嵌入。 它分为两种类型:连续词袋模型 (CBOW) 和 Skip-Gram 模型。 从算法上看,这些模型比较相似,只是 CBOW 从源上下文字词(“the cat sits on the”)中预测目标字词(例如“mat”), 阅读全文
摘要:
大多数自然语言处理应用都是(至少部分)基于RNN的,诸如机器翻译、自动总结、语法分析、观点分析等。 在本章的最后部分,我们将要看看机器翻译模型是如何工作的。TensorFlow的Word2Vec和Seq2Seq教程详细地介绍了这部分内容,你应该认真学习一下。 单词嵌入: 在开始之前,我们需要选择一个 阅读全文
摘要:
模型评估与参数调优实战: 通过对算法进行调优来构建性能良好的机器学习模型,并对模型的性能进行评估。 基于流水线的工作流: 在使用训练数据对模型进行拟合时就得到了一些参数,但将模型用于新数据时需重设这些参数。 scikit-learn中的Pipline类可以拟合出包含任意多个处理步骤的模型,并将模型用 阅读全文
摘要:
贝叶斯准则 P(x|y) = P(y|x) * P(x)/ P(y) 分类原则:在给定的条件下,哪种分类发生的概率大,则属于那种分类。 后验概率 P(R)=P(R|c1)*P(c1) + P(R|c2)*P(c2):全概率公式 P(c1|R)=P(R|c1)*P(c1)/P(R) 计算出先发生P(R 阅读全文
摘要:
决策树: 使用决策树算法,我们从树根开始,基于可获得最大信息增益(information gain,IG)的特征来对数据进行划分,我们将在下一节详细介绍信息增益的概念。 通过迭代处理,在每个子节点上重复此划分过程,直到叶子节点。这意味着在每一个节点处,所有的样本都属于同一类别。 在实际应用中,这可能 阅读全文