摘要:
1. 用ZIP处理列表 假设要合并相同长度的列表并打印结果。同样有一种更通用的方式,即用zip()函数获得想要的结果,代码如下: countries= ['France', 'Germany', 'Canada'] capitals = ['Paris', 'Berlin', 'Ottawa'] f 阅读全文
摘要:
样本不平衡往往会导致以下问题: 对比例小的样本造成过拟合,也就是说预测偏向样本数较多的分类。这样就会大大降低模型的范化能力。往往accuracy(准确率)很高,但auc很低。 针对样本的不平衡问题,有以下几种常见的解决思路: 搜集更多的数据 改变评判指标 对数据进行采样 合成样本 改变样本权重 搜集 阅读全文
摘要:
1. 查 1.1 行元素查询操作 像SQL那样打印列表前20元素,show函数内可用int类型指定要打印的行数: df.show() df.show(30) 以树的形式打印概要: df.printSchema() 获取头几行到本地: list = df.head(3) # Example: [Row 阅读全文
摘要:
1.来源 本质上 GBDT+LR 是一种具有 stacking 思想的二分类器模型,所以可以用来解决二分类问题。这个方法出自于 Facebook 2014 年的论文 Practical Lessons from Predicting Clicks on Ads at Facebook 。 2.使用场 阅读全文
摘要:
ReLU激活功能并不完美。 它有一个被称为 “ReLU 死区” 的问题:在训练过程中,一些神经元会“死亡”,即它们停止输出 0 以外的任何东西。在某些情况下,你可能会发现你网络的一半神经元已经死亡,特别是使用大学习率时。 在训练期间,如果神经元的权重得到更新,使得神经元输入的加权和为负,则它将开始输 阅读全文
摘要:
监督学习 监督学习 监督学习 监督学习 0.线性回归(加L1、L2正则化) from __future__ import print_function from pyspark.ml.regression import LinearRegression from pyspark.sql import 阅读全文
摘要:
时间戳转日期: '20190903'转为'2019-09-23': 相减的天数大于7天: 获取当前日期: 阅读全文
摘要:
0.K-means 结果: 结果: 2.GMM模型 结果: Gaussians shown as a DataFrame: + + + |mean |cov | + + + |[9.099999999999985,9.099999999999985,9.099999999999985] |0.006 阅读全文
摘要:
对连续值处理 0.binarizer/二值化 结果: 1.按照给定边界离散化 结果: 2.quantile_discretizer/按分位数离散化 结果: 3.最大最小值幅度缩放 结果: 4.标准化 结果: 5.添加多项式特征 结果: 对离散型处理 对离散型处理 对离散型处理 对离散型处理 0.独热 阅读全文
摘要:
IDEA新手使用教程(详解):https://cloud.tencent.com/developer/article/1448115 Java学习文档:https://www.sxt.cn/Java_jQuery_in_action/Java_Note.html 阅读全文