摘要: 做线性回归的时候,检验回归方程和各变量对因变量的解释参数很容易搞混乱,下面对这些参数进行一下说明: 1.t检验:t检验是对单个变量系数的显著性检验 一般看p值; 如果p值小于0.05表示该自变量对因变量解释性很强。 2.F检验:F检验是对整体回归方程显著性的检验,即所有变量对被解释变量的显著性检验 阅读全文
posted @ 2019-12-10 11:09 另一个起点 阅读(143834) 评论(0) 推荐(2) 编辑
摘要: 2、逻辑(logistics)回归 逻辑回归可以进行二分类和多分类,下面分别进行讨论: 1)二项逻辑回归(二分类) 假如我们现在需要对一类物品进行二分类,首先根据物品的多个特征,然后将物品的多个特征进行线性组合,这和我们上面讨论的多元线性模型有点类似。只是我们现在不是需要拟合平面(空间)上的点,而是 阅读全文
posted @ 2019-12-06 10:25 另一个起点 阅读(1411) 评论(0) 推荐(0) 编辑
摘要: 1.支持度(Support) 支持度表示项集{X,Y}在总项集里出现的概率。公式为: Support(X→Y) = P(X,Y) / P(I) = P(X∪Y) / P(I) = num(XUY) / num(I) 其中,I表示总事务集。num()表示求事务集里特定项集出现的次数。 比如,num(I 阅读全文
posted @ 2019-12-04 16:40 另一个起点 阅读(5505) 评论(0) 推荐(0) 编辑
摘要: 有时数据读入后并不是对整体数据进行分析,而是数据中的部分子集,例如,对于地铁乘客量可能只关心某些时间段的流量,对于商品的交易可能只需要分析某些颜色的价格变动,对于医疗诊断数据可能只对某个年龄段的人群感兴趣等。所以,该如何根据特定的条件实现数据子集的获取将是本节的主要内容。 通常,在pandas模块中 阅读全文
posted @ 2019-12-02 23:50 另一个起点 阅读(2428) 评论(0) 推荐(0) 编辑
摘要: 异常值概念:是指那些远离正常值的观测,即“不合群”观测。异常值的出现一般是人为的记录错误或者是设备的故障等,异常值的出现会对模型的创建和预测产生 严重的后果。当然异常值也不一定是坏事,有些情况下,通过寻找异常值就能够给业务带来良好的发展,如销毁“钓鱼”网站,关闭“薅羊毛”用户的权限等。 异常值的判定 阅读全文
posted @ 2019-11-29 00:39 另一个起点 阅读(7754) 评论(0) 推荐(0) 编辑
摘要: 缺失值是指数据集中的某些观测存在遗漏的指标值,缺失值的存在同样会影响到数据分析和挖掘的结果。 一般而言,当遇到缺失值是可以采三种方法处置:删除法,替换法和插补法。 1.删除法使用情况:当确实的观测比例非常低是,如5%以内,可以直接删除这些缺失的变量。 2.替换法:用某种直接替换缺失值,例如,对连续变 阅读全文
posted @ 2019-11-27 10:48 另一个起点 阅读(1576) 评论(0) 推荐(0) 编辑
摘要: 当在处理正则表达式的时候,除了正则表达式对象之外,还有另一个对象类型:匹配对象,即是成功调用match()或者search()所返回的对象。 匹配对象有两个主要方法:group() 和 groups() 。 group():要么返回整个匹配对象,要么根据要求返回特定子组;如果group()没有子组要 阅读全文
posted @ 2019-11-27 09:25 另一个起点 阅读(657) 评论(0) 推荐(0) 编辑
摘要: 在数据的处理过程中,一般都需要进行数据清洗工作,如数据集是否存在重复,是否存在缺失,数据是否具有完整性和一致性,数据中是否存在异常值等.发现诸如此类的问题都需要针对性地处理,下面我们一起学习常用的数据清洗方法. 1.重复观测处理 重复观测:指观测行存在重复的现象,重复观测的存在会影响数据分析和挖掘结 阅读全文
posted @ 2019-11-22 11:50 另一个起点 阅读(5644) 评论(0) 推荐(0) 编辑
摘要: 在python中用有一个模块可以用来处理剪切板复制的内容,pyperclip模块 pyperclip模块有copy()和paste()函数,分别用于向计算机的剪贴板发送文本,或从它接受文本。 pyperclip模块不是python自带的。所以要安装这个模块,例如 pip install pyperc 阅读全文
posted @ 2019-11-22 00:52 另一个起点 阅读(1946) 评论(0) 推荐(0) 编辑
摘要: 前面我们有学习过有关字符串的处理和正在表达式,但那都是基于单个字符串或字符串列表的操作。下面将学习如何基于数据框操作字符型变量。 同时介绍一下如何从日期型变量中取出年份,月份,星期几等,如何计算两个日期的时间差。 例题如下: 针对以上数据,读者可以在不看下方代码的情况下尝试着回答这些关于字符型及日期 阅读全文
posted @ 2019-11-21 15:42 另一个起点 阅读(2435) 评论(0) 推荐(0) 编辑