摘要:
算法优势:适用于绝大多数的数据类型,简洁和快速 算法劣势:需要知道准确的 k 值,并且不能处理异形簇,比如球形簇,不同尺寸及密度的簇,环形簇等。 一、分析目标 以数据集字段进行客户分群 二、流程 数据获取,毕业年份、性别、年龄、交友数量、关注的热点词(原本是一个list是否关注了这些运动或者热点词, 阅读全文
摘要:
写在前边:是朋友分享的项目经历,不涉及细节,理论知识我们有了,必要技能也具备,转换行业的时候如何跨越到陌生的业务场景中呢?同行交流和分享是很好地方式。 一、项目目标 1、使财务准备金的预留额度合理(过少无法满足贷款需求,过多造成资金闲置) 2、提升客户忠诚度,提升客户体验 3、提升公司利润(保单贷款 阅读全文
摘要:
关联分析(association analysis)又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式。简言之,关联分析是发现数据库中不同项之间的联系。 与回归问题、分类问题不同,关联算法不能进行预测,但可以用于无监督的知识发现,寻找数据之间的关联性。 阅读全文
摘要:
现有数据维度:PassengerId survival 生存 0 = No, 1 = Yespclass 票类 社会经济地位,1 = Upper, 2 = Middle, 3 = Lowersex 性别 Age 年龄 sibsp 兄弟姐妹/配偶在泰坦尼克号上 parch 父母/孩子在泰坦尼克号上 t 阅读全文
摘要:
一、一元线性回归 以R中自带的trees数据集为例进【微软visual studio2017中R相关数据科学模块】 先绘制一下散点图,看看变量之间是否存在线性关系:体积、树龄 有图得知,存在线性关系,进行建模 将拟合直线绘制到原图上,查看拟合情况 但截距项不应该为负数(无论树龄再小体积也不应该为负数 阅读全文
摘要:
身体不适,中断几天,接下来会陆续上传一些基本算法的概念、同时会附上一个算法使用例子。在此之前需要先把算法的大分类进行一个简单说明: 一、按照机器学习分类 1、有监督学习:已经知道why,这个why可以是分类变量的类别标签,也可以是要预测的数据集的值(比如收入)、可能是单类别或者多类别变量,通过目标变 阅读全文
摘要:
1、去重distinct 2、抽样 3、返回最高记录top_n 4、筛选 5、select子集 选择以某些字符串开头的列 同样的用法有:ends_with(‘id’),contains(‘date’) 6、arrange排序 7、敲黑板:summarize 阅读全文
摘要:
一、数据变换 中心化、标准化原数据: log变换: apply 既能对行操作,又能对列操作,lapply不需要指定行列,默认对列进行操作 age income store_exp1 4.043051 11.70324 6.2712422 4.143135 11.71184 6.1696233 4.0 阅读全文
摘要:
一、相关统计量 mean平均值 忽略NA求均值 median中位数:粗略统计可使用中位数,如果异常值没有经过处理会影响到均值,而中位数一般在均值附近,因此若在对未经过数据处理的数据进行粗略统计时使用中位数的效果可能会比均值好 Mode众数:一组数据中出现次数最多的值,可同时作用于数字和字符数据 R没 阅读全文
摘要:
散点图plot • plot(v,type,col,xlab,ylab) • v:数值向量。 • type:采用值“p”仅绘制点,“l”仅绘制线和“o”绘制点和线。 • xlab:x轴的标签。 • ylab:y轴的标签。 • main:图表的标题。 • col:用于给点和线的颜色 在绘制第一行后,可 阅读全文