摘要:
1.random.random() 返回0<=n<1之间的随机实数n 2. random.uniform() 弥补了上面函数的不足,它可以设定浮点数的范围,一个是上限,一个是下限。 3. random.randint() 随机生成一个整数int类型,可以指定这个整数的范围,同样有上限和下限值 4. 阅读全文
摘要:
传统CTR预估模型包括:LR、FM、GBDT等,其优点是:可解释性强、训练和部署方便、便于在线学习。 (一)CTR预估 1.在cost-per-click:CPC广告中广告主按点击付费。为了最大化平台收入和用户体验,广告平台必须预测广告的CTR,称作predict CTR:pCTR。对每个用户的每次 阅读全文
摘要:
1. nunique() DataFrame.nunique(axis = 0,dropna = True ) 功能:计算请求轴上的不同观察结果 参数: axis : {0或'index',1或'columns'},默认为0。0或'index'用于行方式,1或'列'用于列方式。 dropna : b 阅读全文
摘要:
一. 三种模式 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 二. 算法 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能 阅读全文
摘要:
1. 回归 训练了两个回归器,GBDT和Xgboost,用这两个回归器做stacking 使用之前已经调好参的训练器 事先建好stacking要用到的矩阵 r2值最高为0.79753,效果还不是特别的好 然后用五折交叉验证,每折都预测整个测试集,得到五个预测的结果,求平均,就是新的预测集;而训练集就 阅读全文
摘要:
一、xgboost简介: 全称:eXtreme Gradient Boosting 作者:陈天奇(华盛顿大学博士) 基础:GBDT 所属:boosting迭代型、树类算法。 适用范围:分类、回归 优点:速度快、效果好、能处理大规模数据、支持多种语言、支持自定义损失函数等等。 缺点:算法参数过多,调参 阅读全文
摘要:
一、GBDT类库弱学习器参数 参数分为三类 第一类:Miscellaneous Parameters: Other parameters for overall functioning. 没啥用 第二类:Boosting Parameters: These affect the boosting o 阅读全文
摘要:
0范数:向量中非零元素的个数。 1范数:为绝对值之和。1范数和0范数可以实现稀疏,1因具有比L0更好的优化求解特性而被广泛应用。 2范数:就是通常意义上的模,L2范数是指向量各元素的平方和然后求平方根。我们让L2范数的正则项||W||2最小,可以使得W的每个元素都很小,都接近于0,但与L1范数不同, 阅读全文
摘要:
1. filter 功能: filter的功能是过滤掉序列中不符合函数条件的元素,当序列中要删减的元素可以用某些函数描述时,就应该想起filter函数。 调用: filter(function,sequence),function可以是匿名函数或者自定义函数,它会对后面的sequence序列的每个元 阅读全文
摘要:
1.修改列名字 把Dataframe格式的列名'class1'修改为'class_label' 2.调整列的顺序 3.调整index为从1开始 参考文献: 【1】Python pandas.DataFrame调整列顺序及修改index名 阅读全文