摘要:基本工作原理给定要聚类的N的对象以及N*N的距离矩阵(或者是相似性矩阵), 层次式聚类方法的基本步骤(参看S.C. Johnson in 1967)如下:1. 将每个对象归为一类, 共得到N类, 每类仅包含一个对象. 类与类之间的距离就是它们所包含的对象之间的距离. 2. 找到最接近的两个类并合并成 阅读全文
Tensorflow 的reduce_sum()
2018-04-20 11:32 by xplorerthik, 160 阅读, 0 推荐, 收藏, 编辑
摘要:https://www.zhihu.com/question/51325408 阅读全文
逻辑回归 交叉熵
2018-04-19 19:30 by xplorerthik, 249 阅读, 0 推荐, 收藏, 编辑
摘要:二分类情况: H(t, o) = - t(log(o)) + (1-t)*log(1-o) 多分类情况 http://www.stat.cmu.edu/~cshalizi/350/lectures/26/lecture-26.pdf <!--StartFragment-->deeplearning. 阅读全文
xgboost 里边的gain freq, cover
2018-04-10 17:30 by xplorerthik, 1308 阅读, 0 推荐, 收藏, 编辑
摘要:assuming that you're using xgboost to fit boosted trees for binary classification. The importance matrix is actually a data.table object with the firs 阅读全文
fitting 方法的异常值过滤
2018-04-08 20:20 by xplorerthik, 330 阅读, 0 推荐, 收藏, 编辑
摘要:training = pd.DataFrame({'x':[3,6,9,15,300, 20,85]}). 原始数据training_fitting = pd.DataFrame({'x':[4,7,8,30,280, 10,79]})。 原始数据的fitting值,方法不限。xgboost,RF。 阅读全文
特征不同取值/区间下 label 的均值曲线
2018-03-15 14:03 by xplorerthik, 341 阅读, 0 推荐, 收藏, 编辑
摘要:def two_plot(df, feat, tick_label=None, rotate_tick=60): print('\n### 不同取值/区间下 label 的均值曲线') fig, ax1 = plt.subplots() proportions = df[feat].value_co 阅读全文
pandas sort_values 排序后, index 也发生了改变,不改变的情况下需要 reset_index(drop = True)
2018-02-06 12:17 by xplorerthik, 4480 阅读, 0 推荐, 收藏, 编辑
摘要:shenpi.sort_values(by=['apply_date'],ascending=True,inplace=True)shenpi.reset_index(drop = True) 阅读全文
list 的扩展
2018-02-05 15:47 by xplorerthik, 161 阅读, 0 推荐, 收藏, 编辑
摘要:数据挖掘中会遇到添加多个新的特征s,对一个feature = list()来说, 除了可以用 feature.append('xx') # 在尾部添加一个特征 feature.extend(['xx','xxxx','daf']) # 在尾部添加多个特征 更方便的用法是: 直接用 连接符 + 号。 阅读全文
pandas 中的 多条件分割, list 排序
2018-02-02 11:35 by xplorerthik, 860 阅读, 0 推荐, 收藏, 编辑
摘要:main_comment_num_3m and avg_group_order_cnt_12m = 0.863230main_comment_score_1m and avg_group_order_cnt_6m = 0.863185avg_group_order_cnt_1m and avg_ma 阅读全文
半监督学习
2018-01-29 16:03 by xplorerthik, 207 阅读, 0 推荐, 收藏, 编辑
摘要:Algorithm Details : Label Propagation Semi Supervised Learning : Label Propagation:原理, 利用calculate similarity by e.g. the rbf kernel) 进行传播1) Actually 阅读全文