阿飞飞飞

学而时习之

导航

2020年11月7日 #

机器学习——KNN算法

摘要: 近邻算法(KNN)属于有监督学习的聚类算法,他可以通过测量不同特征值之间的距离进行分类,一个样本在特征空间中的k个最相似的样本大多数属于某一个类别,则该样本也属于这个类别,算法中所选择的邻居都是正确分类的对象。KNN算法测距离依旧使用的是欧式距离。 算法描述: 计算测试数据与各个训练数据之间的距离; 阅读全文

posted @ 2020-11-07 18:54 阿飞飞飞 阅读(174) 评论(0) 推荐(0) 编辑

2020年10月28日 #

hive性能调优的几种方式

摘要: 关于hive数据仓库的调优方式有很多种,留篇博客用来方便记忆... 1、设置本地模式 在hive0.7版本之后就开始支持任务执行选择本地模式(local mode),尽管hive是基于hadoop集群来做大数据处理的,但是有时会出现输入的数据量非常小,其查询出发执行任务的消耗时间远远大于job执行时 阅读全文

posted @ 2020-10-28 00:07 阿飞飞飞 阅读(750) 评论(0) 推荐(0) 编辑

2020年10月22日 #

机器学习——ALS算法

摘要: ALS算法中文名又称为最小二乘法,在机器学习中,ALS特指使用最小二乘法求解的协同过滤算法中的一种 ALS算法在构建spark推荐系统时,是用的最多的协同过滤算法,集成到了spark中ml库和mllib库中(ml库算法接口基于DataFrames,mllib库算法接口基于RDDs,ml库使用越来越普 阅读全文

posted @ 2020-10-22 10:02 阿飞飞飞 阅读(2468) 评论(0) 推荐(0) 编辑

2020年10月21日 #

机器学习——Kmeans算法

摘要: 机器学习分为:监督学习,无监督学习,半监督学习 按算法分类:分类算法,聚类算法,对于无监督学习,应用最广的是“聚类” Kmeans算法属于无监督学习(聚类),对于训练样本的标记信息是未知的 1、Kmeans算法思想 Kmeans算法又称为K均值算法,其原理为:先从样本集中随机选取K个样本作为簇中心( 阅读全文

posted @ 2020-10-21 09:45 阿飞飞飞 阅读(1151) 评论(0) 推荐(0) 编辑

2020年10月20日 #

机器学习——欧式距离和余弦距离

摘要: 在数据分析和挖掘的过程中,为了知道个体间差异的大小,我们需要去评价个体之间的相似性,数据的挖掘方法可以分为分类和聚类,如KNN和KMeans. 而衡量个体差异的方法主要分为两种,距离度量——欧式距离,相似度度量——余弦距离。 1、欧式距离 衡量个体在空间上存在的距离,距离越远说明个体间的差异越大。 阅读全文

posted @ 2020-10-20 22:45 阿飞飞飞 阅读(2577) 评论(0) 推荐(0) 编辑

2020年10月16日 #

SparkGraphX中的PR算法和pregel迭代算法

摘要: PR算法(佩奇等级) PR算法是早期构建搜索系统的链接分析算法,用于衡量特定网页相对于搜索引擎索引中其他网页而言的重要程度 一个页面的PR值越高,则对于其他网页则越重要 如图: 由图通过迭代公式Vn=T·Vn-1,得到一个稳定的PR,矩阵如下: 但是有的点只有入度,没有出度,或者存在自环现象,引入公 阅读全文

posted @ 2020-10-16 10:06 阿飞飞飞 阅读(277) 评论(0) 推荐(0) 编辑

关于linux下,ls vi等命令失效的解决方法(配置下环境变量出现问题)

摘要: 配置完环境变量source之后,linux的ls vi命令均失效,报错如下: 解决方法 1.输入 export PATH=/usr/bin:/usr/sbin:/bin:/sbin:/usr/X11R6/bin并进行source 来确保命令暂时使用 export PATH=/usr/bin:/usr 阅读全文

posted @ 2020-10-16 09:07 阿飞飞飞 阅读(1061) 评论(0) 推荐(0) 编辑

2020年10月14日 #

mysql数据迁移和热备

该文被密码保护。 阅读全文

posted @ 2020-10-14 09:31 阿飞飞飞 阅读(0) 评论(0) 推荐(0) 编辑

2020年10月13日 #

埋点的三种方式

摘要: 1、第三方SDK(又可称前端数据采集) 通过这种 SDK 只能够采集到一些基本的用户行为数据,比如设备的基本信息,用户执行的基本操作等。但是服务端、数据库中的数据并没有采集 客户端 SDK 还有一个问题就是经常觉得统计的不准,和自己的业务数据库数据对不上,出现丢数据的情况。这是前端数据采集的先天缺陷 阅读全文

posted @ 2020-10-13 15:22 阿飞飞飞 阅读(1047) 评论(0) 推荐(0) 编辑

2020年10月11日 #

Spark GraphX

摘要: 一、图的概念 图是由顶点集合(vertex)以及顶点间的关系集合——边(edge)组成的一种网状数据结构,通常表示为二元组:Graph=(V,E) 图按方向可分为有向图和无向图(spak通常为有向图) 度:一个顶点所有边的数量 出度:指从当前顶点指向其他顶点的边的数量 入度:其他顶点指向当前顶点的边 阅读全文

posted @ 2020-10-11 19:23 阿飞飞飞 阅读(148) 评论(0) 推荐(0) 编辑