摘要:
因为工作原因,需要进行因果推断的分析,在这里进行一个DoWhy工具的简单入门。 分析入口:https://github.com/py-why/dowhy/blob/main/docs/source/example_notebooks/dowhy_example_effect_of_memberrew 阅读全文
摘要:
直接进行一个cf的查询自用字典1、对读入的文件 进行一个数据的写入特征指定 比如一串全是数字的文本 可能会被读成int float 需要指定类型data_set = pd.read_csv(file_name, encoding='utf8',dtype={'kol_id':str})2、数据集划分 阅读全文
摘要:
最终目的是学习一个模型使其更加接近这个真实模型。 方差的含义:方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。 偏差的含义:偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力。 噪声的含义:噪声则表达了在当前任务上任何学习算法所能达 阅读全文
摘要:
# encoding:utf-8 import requests import pandas as pd import urllib3 urllib3.disable_warnings() Lists_tot = [] T = "" for i in range(0, 1): header = {' 阅读全文
摘要:
最近在弄这个 需要弄明白这些原理 我要知道为什么要这么做 如何做 有什么类型 如何对比做了前后 然后加到报告里 包含part:原理 处理前 处理后 大多数的参数统计数值,如均值、标准差、相关系数 等,以及基于这些参数的统计分析,均对离群值高度敏感。因此,离群值的存在会对数据分析造成极大影响。 离群值 阅读全文
摘要:
特征处理编码:数据类型:数值 字符是否有顺序类别数量:高低基数1、独热编码 针对无序低基数类离散特征,使之变为哑特征不适合高基数的特征2、标签编码:针对无序低基数类型的离散特征 形式简单且对于低基数特征有效3、woe编码:代表特征对于y标签的预测能力,常用于描述区分好坏客户的衡量标准 4、平均数编码 阅读全文
摘要:
一些有意思的 点: 1、使用推荐算法根据用户预测的热度结果累加,作为最终预测的实体热度 2、根据实际需求,指定两个模型评判的标准: 数值型,直接和数值比较;分类型,看能否映射到特定区间 3、 均方误差:均方根误差:平方误差:对异常值有更大权重异常值有的情况下看maeR平方:展示背离程度、实际预测的线 阅读全文
摘要:
############################## #统计特征SB下XX数据有几个,并保存 #适用于 #featureA featureB featureC #SDF 345 TA #SDF 976 TB #KKj 3 TA #KKj 43 TB #想转为 #featureA TA TB 阅读全文
摘要:
############################## #统计特征SB下XX数据有几个,并保存 #适用于 #featureA featureB #SDF 345 #SDF 976 #KKj 3 #KKj 43 #KKj 34556 #想转为 #featureA 写进数据集的特征名 #SDF 2 阅读全文
摘要:
用到的函数: 1、eval(): eval()函数常被称为评估函数,它的功能是去掉参数最外侧引号,变成python可执行的语句,并执行语句的函数。 2、isinstance(): isinstance() 函数来判断一个对象是否是一个已知的类型。 ########################## 阅读全文