01 2018 档案
摘要:多元函数拟合。如 电视机和收音机价格多销售额的影响,此时自变量有两个。 python 解法: 拟合的各项评估结果和参数都打印出来了,其中结果函数为: f(sales) = β0 + β1*[TV] + β2*[radio] f(sales) = 2.9211 + 0.0458 * [TV] + 0.
阅读全文
摘要:通过 1至10 阶来拟合对比 均方误差及R评分,可以确定最优的“最大阶数”。 因为因变量 Y = 2*(X**4) + X**2 + 9*X + 2 ,自变量和因变量是完整的公式,看图很明显,degree >=4 的都符合,拟合函数都正确。(RMSE 最小,R平方非负且接近于1,则模型最好) 如果将
阅读全文
摘要:import numpy as np import pandas as pd import matplotlib.pyplot as plt import matplotlib.patches as mpatches from scipy.interpolate import spline x = np.arange(-5,11) y = x**3 + 2*(x**2) + x + 2 y2...
阅读全文
摘要:均值: 方差: 标准偏差(总体标准偏差): 栗子:某班级平均身高 M=170cm,方差为 100cm,标准差为10cm,班级身高范围 170±10 cm。 样本标准偏差: 协方差:衡量两个变量(如 X与Y)的总体误差(方差是协方差的一种特殊情况) 一个变量跟随着另一个变量同时变大或者变小,则两个变量
阅读全文
摘要:一元一阶线性拟合: 假设存在一条线性函数尽量能满足所有的点:y=ax+b .对所有点的的公式为: 残差值β = 实际值y - 估计值y,β 应尽量小,当 β = 0 时,则完全符合一元线性方程:y=ax+b 通过最小二乘法计算残差和最小: 根据微积分,当 Q 对 a、b 的一阶偏导数为了0时,Q 达
阅读全文
摘要:原始数据,如按年龄离散化 。首先元素各值频数的分布。 WOE(Weight of Evidence)反映了自变量对因变量的预测能力。 IV(Information Value)在预测模型中选择最重要的变量是最有用的技术之一。用于根据变量的重要性排列变量。 简化: 结果: IV 值经验规则: IV <
阅读全文
摘要:卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。(更多参考:卡方检验、卡方分布) 不讲过多理论,主要使用 python 实现卡方验证。之前
阅读全文
摘要:【随机变量】 设随机实验的样本空间是 S=|e| ,X = X(e) 是定义在样本空间S上的实值单值函数,称 X = X(e) 为随机变量。 【概率分布率】 设随机变量 X ,其所有可能去的不同值为: 取各个值的可能的概率分别为: 即: 若该公式满足以下条件,则称为随机变量X的概率分布率,简称分布率
阅读全文
摘要:支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。关键词:HMM 隐马尔可夫模型 三种分词模式: 结果:中华人民共和国
阅读全文
摘要:Pandas 是 python的一个数据分析包,它提供了大量的数据模型型和函数库,对数据处理很方便。DataFrame 是一个二维表格数据结构,可以当做数据库中的一张关系表。Pandas 可以实现 SQL 中的语句,对 DataFrame 的操作相当于对二维表操作一样。 还是以股票某天的分笔记录为例
阅读全文
摘要:探索性数据分析,主要针对原始数据进行初次了解。了解数据的分布情况、了解分析方向、排除该单个变量的异常值 等。此脚本读取的是 SQL Server ,只需给定表名或视图名称,如果有数据,将输出每个字段符合要求的每张数据分布图。 显示图分为字符型(离散型)和数值型(连续型),示例结果如下:
阅读全文