上一页 1 ··· 7 8 9 10 11 12 13 下一页

2019年2月18日

Pandas 常用统计方法

摘要: DataFrame对象的统计方法 DataFrame对象有一些统计方法。它们大部分都属于约简和汇总统计,用于从 Series 中提取单个值,或从 DataFrame 的行或列中提取一个 Series。比如 方法,当数据集中存在 NA 值时,这些值会被简单跳过,除非整个切片(行或列)全是 NA。如果不 阅读全文

posted @ 2019-02-18 21:53 Frank_Allen 阅读(323) 评论(0) 推荐(0) 编辑

Implement TensorFlow's next_batch for own data

摘要: The version of numpy data The version of pandas data 阅读全文

posted @ 2019-02-18 13:03 Frank_Allen 阅读(453) 评论(0) 推荐(0) 编辑

2019年2月5日

Anaconda cheat sheet

摘要: 1 anaconda prompt 闪退的情况 在cmd中进入 然后可以使用各种conda命令 2 anaconda 换源 在 文件中记录设置的安装源信息 阅读全文

posted @ 2019-02-05 19:05 Frank_Allen 阅读(164) 评论(0) 推荐(0) 编辑

2019年1月23日

matplotlib 与 seaborn 中出现中文乱码的解决方法

摘要: 参考的这篇 "文章" ,但是并不是完全按照其中的做法。 我的做法: 1. 将 拷贝到 下 2. 代码环境设置 阅读全文

posted @ 2019-01-23 10:15 Frank_Allen 阅读(224) 评论(0) 推荐(1) 编辑

2019年1月16日

开源书籍汇总

摘要: 这篇博客汇总所有开源的书籍 "开源电子书集合@github.com" "Interpretable Machine Learning A Guide for Making Black Box Models Explainable" 开源书籍(很多是关于R语言的) https://bookdown.o 阅读全文

posted @ 2019-01-16 23:19 Frank_Allen 阅读(607) 评论(0) 推荐(0) 编辑

The 10 Statistical Techniques Data Scientists Need to Master

摘要: "原文" 就我个人所知有太多的软件工程师尝试转行到数据科学家而盲目地使用机器学习框架来处理数据,例如,TensorFlow或者Apache Spark,但是对于这些框架背后的统计理论没有完全的理解。所以提起 statistical learning,这是机器学习的理论框架,是从统计学和泛函分析(fu 阅读全文

posted @ 2019-01-16 22:44 Frank_Allen 阅读(205) 评论(0) 推荐(0) 编辑

sklearn.model_selection Part 2: Model validation

摘要: 1. check_cv() 阅读源代码要抓主干,所以我把细枝末节的代码注释掉了。 2. cross_validate() 这个函数的代码有点复杂,讲解其他有用的代码。 从 "这里" 可以找到 scoring的名字对应的函数 注意 : 得分函数(score function)是返回的值越高越好,而损失 阅读全文

posted @ 2019-01-16 17:21 Frank_Allen 阅读(251) 评论(0) 推荐(0) 编辑

sklearn.model_selection Part 1: Splitter Classes

摘要: 1. GroupKFold(_BaseKFold) 主要参数: n_splits : int, default=3 在GroupKFold.split(X[, y, groups])中会调用下面的方法 总结 : GroupKFold是没有随机性参数的,也就是样本的groups确定后,每一折包含那些样 阅读全文

posted @ 2019-01-16 15:09 Frank_Allen 阅读(427) 评论(0) 推荐(0) 编辑

2019年1月15日

Feature Engineering and Feature Selection

摘要: 首先,弄清楚三个相似但是不同的任务: feature extraction and feature engineering : 将原始数据转换为特征,以适合建模。 feature transformation : 对数据的转换以提高算法的精度。 feature selection : 删除不必要的特 阅读全文

posted @ 2019-01-15 14:27 Frank_Allen 阅读(451) 评论(0) 推荐(0) 编辑

2019年1月14日

EDA cheat sheet

摘要: %config InlineBackend.figure_format = 'svg' 在jupyter notebook中使用这个命令绘制更清晰的图像,注意百分号后不能有空格。 1. Univariate visualization 单变量分析每次查看一个特征。当我们独立地分析一个特征时,我们通常 阅读全文

posted @ 2019-01-14 20:17 Frank_Allen 阅读(256) 评论(0) 推荐(0) 编辑

上一页 1 ··· 7 8 9 10 11 12 13 下一页

导航