摘要: 很多同学在入门机器学习的时候都会好奇,这么多的机器学习指标,到底要用哪个?这些指标的含义和优缺点是什么?他们之间有没有联系?像AUC这种常用的指标到底是什么意思,它的核心idea又是什么?它是怎样计算出来的? 下面,我会用通俗易懂的语言,介绍不同的机器学习评估指标的具体含义,优缺点,以及它们之间的联 阅读全文
posted @ 2018-10-04 10:32 Little_Rookie 阅读(1707) 评论(0) 推荐(0) 编辑
摘要: 本文作为学习过程中对matplotlib一些常用知识点的整理,方便查找。 类MATLAB API 最简单的入门是从类 MATLAB API 开始,它被设计成兼容 MATLAB 绘图函数。 from pylab import * from numpy import * x = linspace(0, 阅读全文
posted @ 2017-08-26 17:35 Little_Rookie 阅读(71378) 评论(4) 推荐(10) 编辑
摘要: 前言: 同事的业务场景是,按照cid、author分组,再按照id倒叙,取出前2条记录出来。 oracle里面可以通过row_number() OVER (PARTITION BY cid,author ORDER BY id DESC) 表示根据cid,author分组,在分组内部根据id排序,而 阅读全文
posted @ 2017-08-01 13:57 Little_Rookie 阅读(1523) 评论(0) 推荐(0) 编辑
摘要: 一张色环图教你搞定配色! 不管是在平面设计或网页制作中,还是在平常生活中的衣服穿搭和室内装潢中,要想打造出非凡的视觉效果,合理的颜色搭配非常重要。 下面介绍几种色彩搭配方案供您参考,让你轻易地一靶中的。 不管是在平面设计或网页制作中,还是在平常生活中的衣服穿搭和室内装潢中,要想打造出非凡的视觉效果, 阅读全文
posted @ 2017-06-27 23:47 Little_Rookie 阅读(382993) 评论(0) 推荐(2) 编辑
摘要: Excel是数据分析中最常用的工具,本篇文章通过python与excel的功能对比介绍如何使用python通过函数式编程完成excel中的数据处理及分析工作。在Python中pandas库用于数据处理 ,我们从1787页的pandas官网文档中总结出最常用的36个函数,通过这些函数介绍如何通过pyt 阅读全文
posted @ 2017-04-24 13:44 Little_Rookie 阅读(79905) 评论(2) 推荐(15) 编辑
摘要: 1. python数据分析基础 2. numpy 3. Scikit-Learn 4. Bokeh 5. Scipy 6. Pandas 转载于:http://www.jianshu.com/p/7f4945b5d29c 阅读全文
posted @ 2017-04-10 01:55 Little_Rookie 阅读(4951) 评论(0) 推荐(2) 编辑
摘要: 一、说明 后台周期定时任务可以有多种解决方案,我所知道的大概有以下几种: 后台框架自带定时任务。比如php中的Laravel框架里有提供定时任务操作接口,其他的框架大家可以单独针对了解。 服务器操作系统层面的定时。通常我们的服务器主要基于两大平台,一个windows server,它的定时任务系统有 阅读全文
posted @ 2017-03-27 02:26 Little_Rookie 阅读(44445) 评论(3) 推荐(7) 编辑
摘要: 组合索引说明: 组合索引的索引文件以B-Tree格式保存,在创建组合索引时,要根据业务需求,where子句中使用最频繁的一列放在最左边。 组合索引的第一个字段必须出现在查询组句中,这个索引才会被用到。 如果有一个组合索引(col_a,col_b,col_c),下面的情况都会用到这个索引: 对于最后一 阅读全文
posted @ 2017-03-27 01:19 Little_Rookie 阅读(7526) 评论(0) 推荐(0) 编辑
摘要: 我理解的朴素贝叶斯模型 我想说:“任何事件都是条件概率。”为什么呢?因为我认为,任何事件的发生都不是完全偶然的,它都会以其他事件的发生为基础。换句话说,条件概率就是在其他事件发生的基础上,某事件发生的概率。 条件概率是朴素贝叶斯模型的基础。 假设,你的xx公司正在面临着用户流失的压力。虽然,你能计算 阅读全文
posted @ 2017-03-23 23:09 Little_Rookie 阅读(28727) 评论(2) 推荐(0) 编辑
摘要: 一、贷前调查事项 贷前调查是所有银行、小贷、P2P等等往出贷款部门的重中之重。 归根结底就是两条:让不对称信息最大限度对称、让软信息最大限度真实还原。 客户还不还款就是取决两大因素:还款能力、还款意愿。 1、让不对称信息最大限度对称—解决的是还款能力问题。 2、让软信息最大限度真实还原—解决的是还款 阅读全文
posted @ 2017-03-23 20:51 Little_Rookie 阅读(7862) 评论(0) 推荐(0) 编辑
摘要: Jupyter Notebook(此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言。在本文中,我们将介绍 Jupyter notebook 的主要特性,以及为什么对于希望编写漂亮的交互式文档的人来说是一个强大工具。 在开始使用 notebook 之前,我 阅读全文
posted @ 2017-03-17 15:18 Little_Rookie 阅读(277687) 评论(10) 推荐(40) 编辑
摘要: 对数据进行质量分析以后,接下来可通过绘制图表、计算某些特征量等手段进行数据的特征分析。 主要通过分布分析、对比分析、统计量分析、周期性分析、贡献度分析、相关性分析等角度进行展开。 2.1 分布分析 分布分析能揭示数据的分布特征和分布类型。对于定性数据,可用饼形图和条形图直观的现实分布情况。 1.定量 阅读全文
posted @ 2017-02-28 00:29 Little_Rookie 阅读(9630) 评论(0) 推荐(0) 编辑
摘要: 在数据挖掘的过程中,数据预处理占到了整个过程的60% 脏数据:指一般不符合要求,以及不能直接进行相应分析的数据 脏数据包括:缺失值、异常值、不一致的值、重复数据及含有特殊符号(如#、¥、*)的数据 数据清洗:删除原始数据集中的无关数据、重复数据、平滑噪声数据、处理缺失值、异常值等 缺失值处理:删除记 阅读全文
posted @ 2017-02-27 23:39 Little_Rookie 阅读(31409) 评论(0) 推荐(2) 编辑
摘要: 1)、id列SELECT识别符。这是SELECT查询序列号。这个不重要,查询序号即为sql语句执行的顺序 1)、id列SELECT识别符。这是SELECT查询序列号。这个不重要,查询序号即为sql语句执行的顺序 2)、select_type列常见的有: A:simple:表示不需要union操作或者 阅读全文
posted @ 2017-02-26 04:16 Little_Rookie 阅读(3643) 评论(0) 推荐(0) 编辑
摘要: 如何判断我们的线性回归模型是正确的? 1、回归诊断的基本方法opar<-par(no.readOnly=TRUE) fit <- lm(weight ~ height, data = women)par(mfrow = c(2, 2))plot(fit)par(opar) 为理解这些图形,我们来回顾 阅读全文
posted @ 2017-02-23 22:01 Little_Rookie 阅读(30344) 评论(0) 推荐(1) 编辑
摘要: 引言 使用stargazer包可以将 R 构建的模型结果以LATEX、HTML和ASCII格式输出,方便我们生成标准格式的表格。再结合rmarkdown,你就可以轻轻松松输出一篇优雅的文章啦~本文“使用说明”部分主要参考stargazer的说明文档。(https://vectorf.github.i 阅读全文
posted @ 2017-02-09 01:39 Little_Rookie 阅读(8802) 评论(0) 推荐(0) 编辑
摘要: 时间序列: (或称动态数列)是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列分析的主要目的是根据已有的历史数据对未来进行预测。(百度百科) 主要考虑的因素: 1.长期趋势(Long-term trend) : 时间序列可能相当稳定或随时间呈现某种趋势。 时间序列趋势一般为线性的 阅读全文
posted @ 2017-02-09 01:26 Little_Rookie 阅读(9718) 评论(0) 推荐(0) 编辑
摘要: A IMA模型是一种著名的时间序列预测方法,主要是指将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。ARIMA模型根据原序列是否平稳以及回归中所含部分的不同,包括移动平均过程(MA)、自回归过程(AR)、自回归移动平均过程(ARMA)以 阅读全文
posted @ 2017-02-09 01:22 Little_Rookie 阅读(37870) 评论(1) 推荐(2) 编辑
摘要: Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。 关于这个算法有一个非常有名的故事:"尿布和啤酒"。故事是这样的:美国的妇女们经常会嘱咐她们的丈夫下班后为孩子买尿布,而丈夫在买完尿布后又要顺 手买回自己爱喝的啤酒,因此啤酒和尿 阅读全文
posted @ 2017-02-09 00:15 Little_Rookie 阅读(52082) 评论(1) 推荐(1) 编辑
摘要: 机器学习技术在应用之前使用“训练+检验”的模式(通常被称作”交叉验证“)。 预测模型为何无法保持稳定? 让我们通过以下几幅图来理解这个问题: 此处我们试图找到尺寸(size)和价格(price)的关系。三个模型各自做了如下工作: 在应用中,一个常见的做法是对多个模型进行迭代,从中选择表现更好的。然而 阅读全文
posted @ 2017-02-08 22:23 Little_Rookie 阅读(13789) 评论(0) 推荐(1) 编辑
摘要: 聚类的基本思想 俗话说"物以类聚,人以群分" 聚类(Clustering)是一种无监督学习(unsupervised learning),简单地说就是把相似的对象归到同一簇中。簇内的对象越相似,聚类的效果越好。 定义:给定一个有个对象的数据集,聚类将数据划分为个簇,而且这个划分满足两个条件:(1)每 阅读全文
posted @ 2017-02-08 01:33 Little_Rookie 阅读(34633) 评论(0) 推荐(3) 编辑
摘要: 今天查了一下R语言中set.seed(),该命令的作用是设定生成随机数的种子,种子是为了让结果具有重复性。如果不设定种子,生成的随机数无法重现。 > x<-rnorm(10) #随机生成10个随机数 > x [1] 0.3897943 -1.2080762 -0.3636760 -1.6266727 阅读全文
posted @ 2017-02-07 17:43 Little_Rookie 阅读(11356) 评论(0) 推荐(0) 编辑
摘要: 什么是随机森林? 随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。随机森林的名称中有两个关键词,一个是“随机”,一个就是“森林”。“森林”我们很好理解,一棵叫做树,那么成百上千棵就可以 阅读全文
posted @ 2017-02-07 16:57 Little_Rookie 阅读(103216) 评论(3) 推荐(3) 编辑
摘要: 我有与样本外汇一分钟栏报价表。 id,quote_name,quote_date,quote_time,open_rate,close_rate,high_rate,low_rate"1417","EURUSD","2015-01-01","13:01:00","1.2096","1.2096"," 阅读全文
posted @ 2017-02-06 23:24 Little_Rookie 阅读(859) 评论(0) 推荐(0) 编辑
摘要: 转载于:http://www.cnblogs.com/pinard/p/6050306.html (楼主总结的很好,就拿来主义了,不顾以后还是多像楼主学习) 决策树算法在机器学习中算是很经典的一个算法系列了。它既可以作为分类算法,也可以作为回归算法,同时也特别适合集成学习比如随机森林。本文就对决策树 阅读全文
posted @ 2017-02-06 18:39 Little_Rookie 阅读(24270) 评论(0) 推荐(0) 编辑
摘要: ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感 阅读全文
posted @ 2017-02-04 16:02 Little_Rookie 阅读(17288) 评论(1) 推荐(3) 编辑
摘要: 信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型。 本文重点介绍模型变量WOE以及IV原理,为表述方便,本文将模型目标标量为1记为违约用户 阅读全文
posted @ 2017-02-04 15:42 Little_Rookie 阅读(19387) 评论(0) 推荐(1) 编辑
摘要: 本博文将针对消费贷款领域的信用评分及其模型进行相关研究探讨。虽然人人都可以通过对借款方在Lending Club(国外最大的P2P网站)和Prosper上的历史借贷数据进行分析,但我相信,了解消费信贷行为、评分机制和贷款决策背后的工作原理可以帮助投资人更好的在市场中进行决策,获得收益。 消费信贷一直 阅读全文
posted @ 2017-02-04 15:30 Little_Rookie 阅读(8456) 评论(0) 推荐(0) 编辑
摘要: Navicat 查询是根据用户需求从数据库提取可读格式的数据,Navicat 提供两个强大的工具与 SQL 查询工作:查询创建工具和查询编辑器,查询创建工具可视觉化地创建查询,查询编辑器可直接编辑查询文本。巧妙地使用 Navicat 快捷键,可以大大提高工作效率,本教程将详解 Navicat Win 阅读全文
posted @ 2017-02-04 15:17 Little_Rookie 阅读(1183) 评论(0) 推荐(0) 编辑
摘要: 信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型。 本文重点介绍模型变量WOE以及IV原理,为表述方便,本文将模型目标标量为1记为违约用户 阅读全文
posted @ 2017-02-04 14:52 Little_Rookie 阅读(3217) 评论(0) 推荐(0) 编辑
摘要: 一、数据准备 1、 问题的准备 • 目标:要完成一个评分卡,通过预测某人在未来两年内将会经历财务危机的可能性来提高信用评分的效果,帮助贷款人做出最好的决策。 • 背景: – 银行在市场经济中起到至关重要的作用。他们决定谁在什么条件下可以得到融资,并且可以创造或打破投资决策。而市场、社会,以及个人和企 阅读全文
posted @ 2017-02-04 14:48 Little_Rookie 阅读(8941) 评论(0) 推荐(0) 编辑
摘要: 其中,申请评分和行为评分比较成熟的是逻辑回归,其次层次聚类和判别分析、决策树。申请和信用评分需要比较好的解释性,也有的使用神经网络做,只是个噱头。在反欺诈中,不需要有好的解释性,神经网络在这方面这方面使用的比较多。 信用评分之一 P2P的逾期、坏账与违约定义 转载于:http://blog.csdn 阅读全文
posted @ 2017-02-04 14:45 Little_Rookie 阅读(14287) 评论(0) 推荐(1) 编辑
摘要: 评分模型的检验方法和标准通常有:K-S指标、交换曲线、AR值、Gini数等。例如,K-S指标是用来衡量验证结果是否优于期望值,具体标准为:如果K-S大于40%,模型具有较好的预测功能,发展的模型具有成功的应用价值。K-S值越大,表示评分模型能够将“好客户”、“坏客户”区分开来的程度越大。 评分模型的 阅读全文
posted @ 2017-02-04 13:46 Little_Rookie 阅读(21457) 评论(0) 推荐(0) 编辑
摘要: 如今在银行,P2P等各种贷款业务机构,普遍使用信用评分,对客户实行打分制,以期对客户有一个优质与否的评判。但是不是所有人都知道信用评分卡还分A,B,C卡三类!所以,如果你只知道ABC是Gary的ABC汤,那就赶紧来补习下这些知识吧~~ A卡(Application score card)申请评分卡 阅读全文
posted @ 2017-02-04 13:16 Little_Rookie 阅读(6726) 评论(3) 推荐(2) 编辑
摘要: 在互联网金融迅猛发展的背景下,风险控制问题已然成为行业焦点,基于大数据的风控模型正在成为互联网金融领域的热门战场。那么,大数据风控到底是怎么一回事呢?与传统风控相比,它又是怎样来进行风险识别的呢?本文对此进行了探讨。 大数据能够进行数据变现的商业模式目前就是两个,一个是精准营销,典型的场景是商品推荐 阅读全文
posted @ 2017-02-04 13:06 Little_Rookie 阅读(5500) 评论(0) 推荐(0) 编辑
摘要: 转自于:http://blog.csdn.net/liberty_xm/article/details/53185252 一、行业背景 1.1风控行业背景 当前,经济下行导致中小企业经营成本不断增加吗,产品销售价格因结构原因和市场原因相对走低,企业利润空间被进一步压缩,许多中小企业陷入经营困境,导致 阅读全文
posted @ 2017-02-04 11:59 Little_Rookie 阅读(7839) 评论(0) 推荐(0) 编辑
摘要: 传统个人征信的分析维度包括: 1 )个人基本数据,如年龄、性别、职业、收入、婚姻状况、工作年限、 工作状况等; 2) 信贷情况,主要是信贷和信用卡相关数据; 3)公共数据,包括税务、工商、法院、电信、水电煤气等部门的数据; 4) 个人信用报告查询记录。 如今随着大数据时代的到来和发展,可用于评估人们 阅读全文
posted @ 2017-02-04 11:21 Little_Rookie 阅读(14052) 评论(0) 推荐(0) 编辑
摘要: 美国的个人信用评分系统,主要是Fair IsaacCompany 推出的 FICO,评分系统也由此得名。一般来讲, 美国人经常谈到的你的得分 ,通常指的是你目前的FICO分数。而实际上, Fair Isaac 公司开发了三种不同的FICO 评分系统 ,三种评分系统分别由美国的三大信用管理局使用评分系 阅读全文
posted @ 2017-02-04 11:14 Little_Rookie 阅读(44953) 评论(0) 推荐(0) 编辑
摘要: 逻辑回归 因变量随着自变量变化而变化。 多重线性回归是用回归方程描述一个因变量与多个自变量的依存关系,简称多重回归,其基本形式为:Y= a + bX1+CX2+*+NXn。 二项分布即重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验 阅读全文
posted @ 2017-02-04 10:34 Little_Rookie 阅读(3794) 评论(0) 推荐(0) 编辑
摘要: library(jiebaRD)library(jiebaR) ##调入分词的库cutter <- worker()mydata =read.csv(file.choose(),fileEncoding = 'UTF-8',stringsAsFactors = FALSE,header=FALSE) 阅读全文
posted @ 2017-01-24 13:44 Little_Rookie 阅读(7370) 评论(0) 推荐(0) 编辑