随笔分类 - 特征工程
摘要:方法1:利用pandas自带的read_json直接解析字符串 方法2:利用json的loads和pandas的json_normalize进行解析 方法3:利用json的loads和pandas的DataFrame直接构造(这个过程需要手动修改loads得到的字典格式)
阅读全文
摘要:一、数据探索 1.数据读取 遍历文件夹,读取文件夹下各个文件的名字:os.listdir() 方法:用于返回指定的文件夹包含的文件或文件夹的名字的列表。这个列表以字母顺序。 它不包括 '.' 和'..' 即使它在文件夹中。 1.1 CSV格式数据 详细说明 (1)读取 ### python导入csv
阅读全文
摘要:(一)数值特征 数值特征(numerical feature),可以是连续的(continuous),也可以是离散的(discrete),一般表示为一个实数值。 例:年龄、价格、身高、体重、测量数据。 不同算法对于数值特征的处理要求不同。下文中的一些数据处理方法,因为是针对某一特征列的单调变换,所以
阅读全文
摘要:一.查看变量的缺失值(missing value,空值)个数以及所占比例 连续型数据探索 二.画频数占比分布图,查看样本在该特征值上的分布 根据连续变量的值域范围,将该变量分成10箱,就是分成10段,箱数可自由选择; 统计每一箱内样本的频数占比:该箱内样本个数/总样本个数。然后将每一箱的频数比例画出
阅读全文
摘要:一、绘图判断 一般对于强相关性的两个变量,画图就能定性判断是否相关 散点图 seaborn.scatterplot # 散点图矩阵初判多变量间关系 data = pd.DataFrame(np.random.randn(200,4)*100, columns = ['A','B','C','D'])
阅读全文
摘要:1. 前向搜索 每次增量地从剩余未选中的特征选出一个加入特征集中,待达到阈值或者 时,从所有的 中选出错误率最小的。过程如下: 初始化特征集 为空。 扫描 从 到 如果第 个特征不在 中,那么特征 和 放在一起作为 (即 )。 在只使用 中特征的情况下,利用交叉验证来得到 的错误率。 从上步中得到的
阅读全文
摘要:一、正则化 1.L1/Lasso L1正则方法具有稀疏解的特性,因此天然具备特征选择的特性,但是要注意,L1没有选到的特征不代表不重要,原因是两个具有高相关性的特征可能只保留了一个,如果要确定哪个特征重要应再通过L2正则方法交叉检验。 举例:下面的例子在波士顿房价数据上运行了Lasso,其中参数al
阅读全文