随笔分类 - 数据挖掘/数据处理
摘要:参考:ROC与AUC 1. 总结:绘制ROC曲线时,横坐标是FPR(False Positive Rate),纵坐标是TPR(True Positive Rate),ROC曲线上的每一个点由一个分类器(例如逻辑回归分类器)取某一个概率阈值(例如取0.8作为阈值,则预测的概率大于0.8视为正样本,否则
阅读全文
摘要:Say you have one feature and a target with 3 possible values X = np.array([3.4, 3.4, 3. , 2.8, 2.7, 2.9, 3.3, 3. , 3.8, 2.5]) y = np.array([0, 0, 0, 1
阅读全文
摘要:1、collect(): print(dataframe.collect()[index]) 2、dataframe.first() 3、dataframe.head(num_rows)、dataframe.tail(num_rows),head、tail配合使用可以取得中间指定位置的行 4、dat
阅读全文
摘要:在PySpark中,对DataFrame新增一列有几种写法: df=spark.createDataFrame([('p1',56),('p2',23),('p3',11),('p4',40),('p5',29)],['name','age']) df.show() >> + + + |name|a
阅读全文
摘要:https://www.cnblogs.com/liaowuhen1314/p/12792202.html https://zhuanlan.zhihu.com/p/260171469 https://sparkbyexamples.com/pyspark/pyspark-window-functi
阅读全文
摘要:disable SettingWithCopyWarning: import pandas as pd pd.options.mode.chained_assignment = None 一了百了。
阅读全文
摘要:方法1:df.loc[conditions]=row.values,逐行地进行整行替换 for row in df.iterrows(): row['given_amount']=row['amount']; row['given_percent']=1 row['remain_amount']=0
阅读全文
摘要:DataFrame的apply方法: Series的apply方法:
阅读全文
摘要:逐行修改DataFrame而不会报SettingwithCopyWarning警告的方法: 参考:https://cloud.tencent.com/developer/ask/168023/answer/270064 逐行修改数据时,我们可能关注或只记得列名,这时使用df.iloc或者df.loc
阅读全文
摘要:1. 连续型特征的常用的归一化方法、离散型特征one-hot编码的意义 2. 度量特征之间的相关性 :余弦相似度和皮尔逊相关系数
阅读全文
摘要:删除df中任意字段等于'null'字符串的行: 去掉任意一列为'null'值的行,目前只能想到用循环: 去掉包含(而非等于)'null'字符串列的行:
阅读全文
摘要:直奔主题:把包含中文的csv文件的编码改成utf-8的方法: https://stackoverflow.com/questions/191359/how-to-convert-a-file-to-utf-8-in-python 啰嗦几句: 在用pandas读取hive导出的csv文件时,经常会遇到
阅读全文
摘要:https://blog.csdn.net/u011089523/article/details/72841694
阅读全文
摘要:【Python实战】Pandas:让你像写SQL一样做数据分析(一) 用pandas实现sql功能
阅读全文