摘要: 神经元模型的使用可以这样理解: 我们有一个数据,称之为样本。样本有四个属性,其中三个属性已知,一个属性未知。我们需要做的就是通过三个已知属性预测未知属性。 具体办法就是使用神经元的公式进行计算。三个已知属性的值是a1,a2,a3,未知属性的值是z。z可以通过公式计算出来。 这里,已知的属性称之为特征 阅读全文
posted @ 2021-08-02 19:05 celine227 阅读(858) 评论(0) 推荐(0) 编辑
摘要: 我们先引入一个简单的收入回归方程: 其中Wage 是小时工资,Di 为是否接受工作培训的虚拟变量,X是控制变量。 假设我们想看一下D 对Wage 的影响是否因性别而异。我们即可以引入交互项: 观察交互项的系数 是否显著即可: 也可以使用分组回归: 然后再检验Di 的回归系数差异是否显著即可。 不难发 阅读全文
posted @ 2021-08-02 17:03 celine227 阅读(1956) 评论(0) 推荐(0) 编辑
摘要: 一、从一个例子开始 假设你在一家金融公司工作,老板交给你一个任务,建一个模型,用来预测一个借款人是否会违约,公司拥有一个借款人的特征数据,比如年龄。 将是否违约作为标签变量y,0表示没有违约,1表示违约。在给定特征x的情况下,我们假设 y 是一个服从伯努利分布的二值随机变量。注意,这是我们做的第一个 阅读全文
posted @ 2021-07-30 18:53 celine227 阅读(327) 评论(0) 推荐(0) 编辑
摘要: 1. 模型介绍 Logistic Regression 虽然被称为回归,但其实际上是分类模型,并常用于二分类。Logistic Regression 因其简单、可并行化、可解释强深受工业界喜爱。 Logistic 回归的本质是:假设数据服从这个分布,然后使用极大似然估计做参数的估计。 1.1 Log 阅读全文
posted @ 2021-07-30 15:50 celine227 阅读(372) 评论(0) 推荐(0) 编辑
摘要: 一、什么是“核函数”我们都知道,机器学习(神经网络)的一个很重要的目的,就是将数据分类。我们想象下面这个数据(图1),在二维空间(特征表示为和)中随机分布的两类数据(用圆圈和叉叉表示)。 如果我们想要将这两类数据进行分类,那么分类的边界将会是一个椭圆: 但是如果我们可以通过一个映射,将数据的特征通过 阅读全文
posted @ 2021-07-30 15:17 celine227 阅读(756) 评论(0) 推荐(0) 编辑
摘要: Regularization can be used to avoid overfitting. But what actually is regularization, what are the common techniques, and how do they differ? Well, ac 阅读全文
posted @ 2021-07-29 12:45 celine227 阅读(114) 评论(0) 推荐(0) 编辑
摘要: 1. A linear model does not output probabilities, but it treats the classes as numbers (0 and 1) and fits the best hyperplane (for a single feature, it 阅读全文
posted @ 2021-07-29 12:36 celine227 阅读(77) 评论(0) 推荐(0) 编辑
摘要: 感知器算法是一种可以直接得到线性判别函数的线性分类方法,由于它是基于样本线性可分的要求下使用的,所以先来了解下什么是线性可分? 线性可分与线性不可分 假设有一个包含 个样本的样本集合 , 其中 . 我们想要找到一个线性判别函数 将两类样本分开,其中 ,如图1所示: 图 1 为了讨论方便,我们将样本 阅读全文
posted @ 2021-07-28 18:58 celine227 阅读(2210) 评论(0) 推荐(0) 编辑
摘要: 2. 选择性偏差校正 2.1 选择模型 选择模型有两种主要应用,一是 处理效应 (treatment effect model),即回归模型中包含一个内生的指示变量 ()。例如,管理层是否发布盈余预测 ( 或 0) 对资本成本影响。二是 样本选择 (sample selection model),即 阅读全文
posted @ 2021-07-25 15:49 celine227 阅读(10536) 评论(0) 推荐(0) 编辑
摘要: 数据清理第一步:整体数据查看 一、查看识别变量--isid、duplicates 一般而言,每个数据集都有唯一一个识别每条记录的识别符(重复测量的长型数据除外)。Stata检查唯一识别符是否唯一的命令为isid(或许是is this an ID的缩写)。isid允许同时检查多个唯一识别符,如果没有返 阅读全文
posted @ 2021-07-16 10:44 celine227 阅读(7741) 评论(0) 推荐(0) 编辑