摘要:
使用argparse进行参数解析,此模块是 Python 标准库中推荐的命令行解析模块。 注解 还有另外两个模块可以完成同样的任务,称为 getopt (对应于 C 语言中的 getopt() 函数) 和被弃用的 optparse。还要注意 argparse 是基于 optparse 的,因此用法与 阅读全文
摘要:
逻辑回归会生成一个介于 0 到 1 之间(不包括 0 和 1)的概率值,而不是确切地预测结果是 0 还是 1。以用于检测垃圾邮件的逻辑回归模型为例。如果此模型推断某一特定电子邮件的值为 0.932,则意味着该电子邮件是垃圾邮件的概率为 93.2%。更准确地说,这意味着在无限训练样本的极限情况下,模型 阅读全文
摘要:
特征组合是指两个或多个特征相乘形成的合成特征。特征的相乘组合可以提供超出这些特征单独能够提供的预测能力。 特征组合 (Feature Crosses):对非线性规律进行编码 请看如下示例,我们做出如下假设: 蓝点代表生病的树。 橙点代表健康的树。 您可以画一条线将生病的树与健康的树清晰地分开吗?当然 阅读全文
摘要:
传统编程的关注点是代码。在机器学习项目中,关注点变成了特征表示。也就是说,开发者通过添加和改善特征来调整模型。 表示:特征工程 将原始数据映射到特征 下图左侧表示来自数据源的原始数据,右侧表示特征矢量,也就是组成数据集中样本的浮点值集。特征工程指的是将原始数据转换为特征矢量。进行特征工程预计需要大量 阅读全文
摘要:
本节介绍泛化。 泛化:过拟合的风险 为了更好的理解这一概念,请看如下例子:假设下图中的每个点代表一棵树在森林中的位置。图中的两种颜色分别代表以下含义,蓝点代表生病的树,橙点代表健康的树。 您能设想出一个有效的模型来预测以后的生病或健康的树吗?花点时间在脑海里绘制一条弧线将蓝点与橙点分开,或者在脑海中 阅读全文
摘要:
定义:机器学习系统通过如何组合输入信息来对从未见过的数据做出有用的预测。 基本术语 标签:标签是我们要预测的事物,即简单线性回归中的$y$变量。 特征:特征是输入变量,即简单线性回归中的$x$变量,特征可以有多个,是一种可量化的指标。 样本:样本是指数据的特定实例$X$,样本分为有标签样本和无标签样 阅读全文
摘要:
在C++中标准库提供三个类用于文件操作,统称为文件流类: ifstream:专用于从文件中读取数据; ofstream:专用于向文件中写入数据; fstream:既可用于从文件中读取数据,又可用于向文件中写入数据。 这三个文件流类都位于 头文件中,因此在使用它们之前,需要先引入此头文件。 有两种方式 阅读全文
摘要:
使用new运算符会调用对象的构造函数 class test { private: /* data */ public: int val = 0; test(/* args */); ~test(); }; test::test(/* args */) { val = 100; } 主函数: int 阅读全文
摘要:
关系模型基本概念 定义1.1 用二维数组表示实体集,用关键码表示实体之间联系的数据模型称之为关系模型。 定义1.2 从数学的角度可以一个属性数目相同的元组的集合定义为关系。 在关系模型中,对关系作了下列规范性限制: 1、关系中的每一个属性值都是不可分解的。 2、关系中不允许出现重复元组。 3、由于关 阅读全文
摘要:
unix时间戳是从1970年1月1日(UTC/GMT的午夜)开始所经过的秒数,其值从0开始,按照ISO 8601规范为 :1970-01-01 00:00:00Z。一个小时表示为UNIX时间戳格式为:3600秒;一天表示为UNIX时间戳为86400秒,闰秒不计算。 时间戳常量 private fin 阅读全文