2019年3月25日

sklearn中的交叉验证(Cross-Validation)

摘要: 这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎stargithub地址sklearn是利用python进行机器学习中一个非常全面和好用的第三方库,用过的都说好。今天主要记录一下sklearn中关于交叉验证的各种用法,主要是对sklearn官方文档 Cross-validation 阅读全文

posted @ 2019-03-25 18:35 tan_2810 阅读(441) 评论(0) 推荐(0) 编辑

scikit-learn 0.18中的cross_validation模块被移除

摘要: 环境:scikit-learn 0.18 , python3 报出如下警告: from sklearn.grid_search import GridSearchCV /usr/lib/python3.4/site-packages/sklearn/cross_validation.py:44: D 阅读全文

posted @ 2019-03-25 18:31 tan_2810 阅读(1089) 评论(0) 推荐(0) 编辑

python logging模块

摘要: 原文:http://www.cnblogs.com/dahu-daqing/p/7040764.html 1 logging模块简介 logging模块是Python内置的标准模块,主要用于输出运行日志,可以设置输出日志的等级、日志保存路径、日志文件回滚等;相比print,具备如下优点: 2 log 阅读全文

posted @ 2019-03-25 16:57 tan_2810 阅读(163) 评论(0) 推荐(0) 编辑

随机森林参数理解与调优

摘要: 首先理解随机森林模型各参数的含义: class sklearn.ensemble.RandomForestRegressor(n_estimators=10, criterion=’mse’, max_depth=None, min_samples_split=2, min_samples_leaf 阅读全文

posted @ 2019-03-25 16:54 tan_2810 阅读(1352) 评论(0) 推荐(0) 编辑

kaggle 欺诈信用卡预测——Smote+LR

摘要: from:https://zhuanlan.zhihu.com/p/30461746 本项目需解决的问题 本项目通过利用信用卡的历史交易数据,进行机器学习,构建信用卡反欺诈预测模型,提前发现客户信用卡被盗刷的事件。 建模思路 项目背景 以上取自Kaggle官网对本数据集部分介绍(谷歌翻译),关于数据 阅读全文

posted @ 2019-03-25 16:53 tan_2810 阅读(911) 评论(0) 推荐(0) 编辑

一篇文章教你如何用 Python 记录日志

摘要: http://python.jobbole.com/89007/ 对一名开发者来说最糟糕的情况,莫过于要弄清楚一个不熟悉的应用为何不工作。有时候,你甚至不知道系统运行,是否跟原始设计一致。 在线运行的应用就是黑盒子,需要被跟踪监控。最简单也最重要的方式就是记录日志。记录日志允许我们在开发软件的同时, 阅读全文

posted @ 2019-03-25 16:51 tan_2810 阅读(150) 评论(0) 推荐(0) 编辑

python 读取 log日志的编码问题

摘要: 1.我要读取log日志的”执行成功”的个数,log日志编码格式为GBK 2.显示报错,大致意思是说utf-8的代码不能解析log日志 3.后来想想把log日志用GBK编码读出来,写到新文件中,用utf-8编码,解决了问题。 阅读全文

posted @ 2019-03-25 16:50 tan_2810 阅读(1211) 评论(0) 推荐(0) 编辑

随机森林random forest及python实现

摘要: 引言想通过随机森林来获取数据的主要特征 1、理论根据个体学习器的生成方式,目前的集成学习方法大致可分为两大类,即个体学习器之间存在强依赖关系,必须串行生成的序列化方法,以及个体学习器间不存在强依赖关系,可同时生成的并行化方法; 前者的代表是Boosting,后者的代表是Bagging和“随机森林”( 阅读全文

posted @ 2019-03-25 16:49 tan_2810 阅读(3380) 评论(0) 推荐(0) 编辑

评分卡系列(三):分类学习器的评估

摘要: 评分卡可以用来预测客户的好坏。当一个评分卡已经构建完成,并且有一组个人分数和其对应的好坏状态的数据时,我们想知道所构建的评分卡是否可靠?可靠程度如何?而这取决于如何去定义这个“好”字。一般有三种角度可以来评估: 评分卡分类划分的准确程度,如错误率、准确率、召回率、F1 评分卡的判别能力,评估评分卡将 阅读全文

posted @ 2019-03-25 16:34 tan_2810 阅读(610) 评论(0) 推荐(0) 编辑

评分卡系列(二):特征工程

摘要: 在上一篇文章中,我们对LendingClub的数据有了一个大致的了解,这次我将带大家把10万多条、145个字段的原始数据一步一步处理成建模所需输入的数据。 我们先按照上次一样导入数据,这里我将逾期15天以上的都当作正类 1、评分卡简介 在进行下一步操作之前,我们先来解构一下评分卡。 贷款机构(含银行 阅读全文

posted @ 2019-03-25 16:33 tan_2810 阅读(330) 评论(0) 推荐(0) 编辑

评分卡系列(一):讲讲评分系统的构建

摘要: 我想通过几篇文章,给评分卡的全流程一个中等粒度的介绍。另外我的本职工作不是消费金融的数据分析,所以本系列的文章会偏技术一些。 数据分析工具主要有Python3及pandas、sklearn等科学计算包,另外也会有自己的工具包reportgen。 信用记录数据采用Lending Club的公开数据,特 阅读全文

posted @ 2019-03-25 16:31 tan_2810 阅读(1223) 评论(0) 推荐(0) 编辑

python读取日志,存入mysql

摘要: 1、从 http://www.almhuette-raith.at/apache-log/access.log 下载 1万条日志记录,保存为一个文件,读取文件并解析日志,从日志中提取ip, time_local, http_method, url, http_status, body_bytes_s 阅读全文

posted @ 2019-03-25 16:28 tan_2810 阅读(202) 评论(0) 推荐(0) 编辑

互联网金融风控模型大全

摘要: 一、市场调研目前市面主流的风控模型1、互联网金融前10名排行榜(数据截止日期2017-09-12)互联网金融公司排名分别是蚂蚁金服、陆金所、京东金融、苏宁金融、百度金融、腾讯理财通、宜信、钱大掌柜、万达金融和网易理财。1.1 蚂蚁金服1.1.1 大数据技术 对接第三方征信公司芝麻信用分,通过用户信用 阅读全文

posted @ 2019-03-25 16:24 tan_2810 阅读(592) 评论(0) 推荐(0) 编辑

用PMML实现机器学习模型的跨平台上线

摘要: 在机器学习用于产品的时候,我们经常会遇到跨平台的问题。比如我们用Python基于一系列的机器学习库训练了一个模型,但是有时候其他的产品和项目想把这个模型集成进去,但是这些产品很多只支持某些特定的生产环境比如Java,为了上一个机器学习模型去大动干戈修改环境配置很不划算,此时我们就可以考虑用预测模型标 阅读全文

posted @ 2019-03-25 16:22 tan_2810 阅读(206) 评论(0) 推荐(0) 编辑

导航