女贞路4号

2023年7月5日

摘要：我有一个图如下所示 import numpy as np A = np.zeros((4, 4)) for i, j in [(0,0), (0,1), (0,2), (0,3), (1,1), (2,2), (3,3)]: #相连的为1 A[j, i] = 1 A[i, j] = 1 hop_di 阅读全文

posted @ 2023-07-05 14:52 女贞路4号阅读(42) 评论(0) 推荐(0) 编辑

2022年11月11日

RegionEncoder论文阅读

摘要： RegionEncoder - Unsupervised Representation Learning of Spatial Data via Multimodal Embedding 作者将这个工作叫做 Learning an Embedding Space for Regions （LESR）阅读全文

posted @ 2022-11-11 18:40 女贞路4号阅读(35) 评论(0) 推荐(1) 编辑

2022年11月10日

Zone2Vec论文阅读

摘要： Zone2Vec: Distributed Representation Learning of Urban Zones 提出了一种新的区域embedding的方法，他们叫做SAZE。考虑到了区域之间的连通性（出租车轨迹连接各个区域），也考虑了区域本身内在的属性（通过社交网络找到本区域的属性）。作者阅读全文

posted @ 2022-11-10 15:47 女贞路4号阅读(36) 评论(0) 推荐(1) 编辑

2022年11月7日

Hex2Vec论文阅读

摘要： Context-Aware Embedding H3 Hexagons with OpenStreetMap Tags 介绍了一种用公共开放地图数据，将地图上的小区域进行向量化表示的方法。选了36个城市，用Uber H3将城市划分为六边形蜂巢，每个蜂巢手工标注上标签（比如建筑，绿地），用负采样的s 阅读全文

posted @ 2022-11-07 21:21 女贞路4号阅读(101) 评论(0) 推荐(0) 编辑

2022年2月9日

StandardScaler/MinMaxScaler/Normalizer

摘要： from sklearn.preprocessing import StandardScaler, MinMaxScaler, Normalizer 许多学习算法中目标函数的基础都是假设所有的特征都是零均值并且具有同一阶数上的方差。如果某个特征的方差比其他特征大几个数量级，那么它就会在学习算法中占据阅读全文

posted @ 2022-02-09 11:19 女贞路4号阅读(167) 评论(0) 推荐(1) 编辑

2021年8月19日

ROC、AUC

摘要： ROC 、AUC ROC曲线是评价学习器泛化能力的指标，他纵轴是“真正例率”（TPR），横轴是“假正例率”（FPR），需要FPR越小，TPR越高，则模型越好 TPR = TP / (TP + FN) 可以理解为模型对正例的灵敏度 FPR = FP / (TN + FP) 可以理解为模型对负例的特异度阅读全文

posted @ 2021-08-19 22:35 女贞路4号阅读(749) 评论(0) 推荐(0) 编辑

2020年6月16日

DataFrame的groupby()

摘要：有这样一张表，“non_response_num”是真实非应答次数，“predict_non_response_num”是模型预测的非应答次数。想计算每个时间片内不同group_id的所有hex_center的MAE值，用groupby方法： from sklearn import metrics 阅读全文

posted @ 2020-06-16 14:26 女贞路4号阅读(435) 评论(0) 推荐(0) 编辑

2020年5月20日

集成学习（二）XGBoost

摘要： XGBoost 特点 XGBoost相当于是GBDT的工程实现，其创新点有如下： 1、拟合残差利用了泰勒展开 2、加入正则项防止过拟合 3、每一轮用贪心方法分裂树，用分桶近似计算 4、每一个弱分类器都要乘以一个shrinkage（也叫step size） 5、特征抽样（列抽样）泰勒展开 GBDT的阅读全文

posted @ 2020-05-20 11:15 女贞路4号阅读(312) 评论(0) 推荐(0) 编辑

2020年4月23日

核密度估计

摘要：核密度估计密度函数就是分布函数的一阶导数对现有数据来估计密度函数的时候，可以用分布函数的一阶导数进行估计。找离散数据的分布函数可以用（小于t的样本数）/（总样本数），但这个是不可导的，没办法找导数这时候考虑导数的定义就是看在(-h, h)区间有多少个样本点，那么密度函数的估计就变成：（h 阅读全文

posted @ 2020-04-23 11:44 女贞路4号阅读(354) 评论(0) 推荐(0) 编辑

2020年3月21日

超参数调优

摘要：超参数调优方法网格搜索通过查找搜索范围内的所有的点来确定最优值。如果采用较大的搜索范围以及较小的步长，网络搜索有很大概率找到全局最优值。然而，这种搜索方案十分消耗计算资源和时间，特别是需要调优的超参数比较多的时候，因此，在实际应用中，网格搜索法一般会使用较广的搜索范围和步长，来寻找全局最优值可能阅读全文

posted @ 2020-03-21 17:36 女贞路4号阅读(208) 评论(0) 推荐(0) 编辑

公告