tan_2810 - 博客园

python 读取 log日志的编码问题

摘要： 1.我要读取log日志的”执行成功”的个数，log日志编码格式为GBK 2.显示报错，大致意思是说utf-8的代码不能解析log日志 3.后来想想把log日志用GBK编码读出来，写到新文件中，用utf-8编码，解决了问题。阅读全文

posted @ 2019-03-25 16:50 tan_2810 阅读(1212) 评论(0) 推荐(0) 编辑

随机森林random forest及python实现

摘要：引言想通过随机森林来获取数据的主要特征 1、理论根据个体学习器的生成方式，目前的集成学习方法大致可分为两大类，即个体学习器之间存在强依赖关系，必须串行生成的序列化方法，以及个体学习器间不存在强依赖关系，可同时生成的并行化方法；前者的代表是Boosting，后者的代表是Bagging和“随机森林”（阅读全文

posted @ 2019-03-25 16:49 tan_2810 阅读(3402) 评论(0) 推荐(0) 编辑

评分卡系列（三）：分类学习器的评估

摘要：评分卡可以用来预测客户的好坏。当一个评分卡已经构建完成，并且有一组个人分数和其对应的好坏状态的数据时，我们想知道所构建的评分卡是否可靠？可靠程度如何？而这取决于如何去定义这个“好”字。一般有三种角度可以来评估：评分卡分类划分的准确程度，如错误率、准确率、召回率、F1 评分卡的判别能力，评估评分卡将阅读全文

posted @ 2019-03-25 16:34 tan_2810 阅读(668) 评论(0) 推荐(0) 编辑

评分卡系列（二）：特征工程

摘要：在上一篇文章中，我们对LendingClub的数据有了一个大致的了解，这次我将带大家把10万多条、145个字段的原始数据一步一步处理成建模所需输入的数据。我们先按照上次一样导入数据，这里我将逾期15天以上的都当作正类 1、评分卡简介在进行下一步操作之前，我们先来解构一下评分卡。贷款机构（含银行阅读全文

posted @ 2019-03-25 16:33 tan_2810 阅读(350) 评论(0) 推荐(0) 编辑

评分卡系列（一）：讲讲评分系统的构建

摘要：我想通过几篇文章，给评分卡的全流程一个中等粒度的介绍。另外我的本职工作不是消费金融的数据分析，所以本系列的文章会偏技术一些。数据分析工具主要有Python3及pandas、sklearn等科学计算包，另外也会有自己的工具包reportgen。信用记录数据采用Lending Club的公开数据，特阅读全文

posted @ 2019-03-25 16:31 tan_2810 阅读(1250) 评论(0) 推荐(0) 编辑

python读取日志，存入mysql

摘要： 1、从 http://www.almhuette-raith.at/apache-log/access.log 下载 1万条日志记录，保存为一个文件，读取文件并解析日志，从日志中提取ip, time_local, http_method, url, http_status, body_bytes_s 阅读全文

posted @ 2019-03-25 16:28 tan_2810 阅读(204) 评论(0) 推荐(0) 编辑

互联网金融风控模型大全

摘要：一、市场调研目前市面主流的风控模型1、互联网金融前10名排行榜(数据截止日期2017-09-12)互联网金融公司排名分别是蚂蚁金服、陆金所、京东金融、苏宁金融、百度金融、腾讯理财通、宜信、钱大掌柜、万达金融和网易理财。1.1 蚂蚁金服1.1.1 大数据技术对接第三方征信公司芝麻信用分，通过用户信用阅读全文

posted @ 2019-03-25 16:24 tan_2810 阅读(617) 评论(0) 推荐(0) 编辑

用PMML实现机器学习模型的跨平台上线

摘要：在机器学习用于产品的时候，我们经常会遇到跨平台的问题。比如我们用Python基于一系列的机器学习库训练了一个模型，但是有时候其他的产品和项目想把这个模型集成进去，但是这些产品很多只支持某些特定的生产环境比如Java，为了上一个机器学习模型去大动干戈修改环境配置很不划算，此时我们就可以考虑用预测模型标阅读全文

posted @ 2019-03-25 16:22 tan_2810 阅读(210) 评论(0) 推荐(0) 编辑

python pandas stack和unstack函数

摘要：在用pandas进行数据重排时，经常用到stack和unstack两个函数。stack的意思是堆叠，堆积，unstack即“不要堆叠”，我对两个函数是这样理解和区分的。常见的数据的层次化结构有两种，一种是表格，一种是“花括号”，即下面这样的l两种形式： store1 store2 store3 s 阅读全文

posted @ 2019-02-01 12:59 tan_2810 阅读(820) 评论(0) 推荐(1) 编辑

十分钟掌握pandas（pandas官方文档翻译）

摘要：十分钟掌握pandas 文档版本：0.20.3 这是一个对pandas简短的介绍，适合新用户。你可以在Cookbook中查看更详细的内容。通常，我们要像下面一样导入一些包。创建对象用一个包含值的序列创建一个Series，pandas会创建一个默认的整数索引用numpy数值创建一个带有date 阅读全文

posted @ 2019-01-14 17:58 tan_2810 阅读(390) 评论(0) 推荐(0) 编辑