随笔分类 -  数据挖掘/数据处理

摘要:参考:ROC与AUC 1. 总结:绘制ROC曲线时,横坐标是FPR(False Positive Rate),纵坐标是TPR(True Positive Rate),ROC曲线上的每一个点由一个分类器(例如逻辑回归分类器)取某一个概率阈值(例如取0.8作为阈值,则预测的概率大于0.8视为正样本,否则 阅读全文
posted @ 2021-12-07 11:56 morein2008 编辑
摘要:Say you have one feature and a target with 3 possible values X = np.array([3.4, 3.4, 3. , 2.8, 2.7, 2.9, 3.3, 3. , 3.8, 2.5]) y = np.array([0, 0, 0, 1 阅读全文
posted @ 2021-12-06 21:10 morein2008 编辑
摘要:1、collect(): print(dataframe.collect()[index]) 2、dataframe.first() 3、dataframe.head(num_rows)、dataframe.tail(num_rows),head、tail配合使用可以取得中间指定位置的行 4、dat 阅读全文
posted @ 2021-10-28 16:54 morein2008 编辑
摘要:在PySpark中,对DataFrame新增一列有几种写法: df=spark.createDataFrame([('p1',56),('p2',23),('p3',11),('p4',40),('p5',29)],['name','age']) df.show() >> + + + |name|a 阅读全文
posted @ 2021-10-27 16:50 morein2008 编辑
摘要:https://www.cnblogs.com/liaowuhen1314/p/12792202.html https://zhuanlan.zhihu.com/p/260171469 https://sparkbyexamples.com/pyspark/pyspark-window-functi 阅读全文
posted @ 2021-10-25 17:01 morein2008 编辑
摘要:disable SettingWithCopyWarning: import pandas as pd pd.options.mode.chained_assignment = None 一了百了。 阅读全文
posted @ 2021-08-20 00:05 morein2008 阅读(86) 评论(0) 推荐(0) 编辑
摘要:方法1:df.loc[conditions]=row.values,逐行地进行整行替换 for row in df.iterrows(): row['given_amount']=row['amount']; row['given_percent']=1 row['remain_amount']=0 阅读全文
posted @ 2020-02-25 15:28 morein2008 编辑
摘要:DataFrame的apply方法: Series的apply方法: 阅读全文
posted @ 2019-11-04 19:20 morein2008 编辑
摘要:逐行修改DataFrame而不会报SettingwithCopyWarning警告的方法: 参考:https://cloud.tencent.com/developer/ask/168023/answer/270064 逐行修改数据时,我们可能关注或只记得列名,这时使用df.iloc或者df.loc 阅读全文
posted @ 2019-07-25 20:50 morein2008 编辑
摘要:数据可视化(三)- Seaborn简易入门 阅读全文
posted @ 2018-11-29 16:12 morein2008 编辑
摘要:1. 连续型特征的常用的归一化方法、离散型特征one-hot编码的意义 2. 度量特征之间的相关性 :余弦相似度和皮尔逊相关系数 阅读全文
posted @ 2018-11-19 20:23 morein2008 编辑
摘要:删除df中任意字段等于'null'字符串的行: 去掉任意一列为'null'值的行,目前只能想到用循环: 去掉包含(而非等于)'null'字符串列的行: 阅读全文
posted @ 2018-09-21 10:36 morein2008 编辑
摘要:直奔主题:把包含中文的csv文件的编码改成utf-8的方法: https://stackoverflow.com/questions/191359/how-to-convert-a-file-to-utf-8-in-python 啰嗦几句: 在用pandas读取hive导出的csv文件时,经常会遇到 阅读全文
posted @ 2018-09-19 19:52 morein2008 阅读(60981) 评论(1) 推荐(1) 编辑
摘要:https://blog.csdn.net/u011089523/article/details/72841694 阅读全文
posted @ 2018-09-14 15:07 morein2008 编辑
摘要:【Python实战】Pandas:让你像写SQL一样做数据分析(一) 用pandas实现sql功能 阅读全文
posted @ 2018-09-07 20:38 morein2008 编辑

点击右上角即可分享
微信分享提示