摘要:
Spark mlib的本地向量有两种: DenseVctor :稠密向量 其创建方式 Vector.dense(数据) SparseVector :稀疏向量 其创建方式有两种: 方法一:Vector.sparse(向量长度,索引数组,与索引数组所对应的数值数组) 方法二:Vector.sparse( 阅读全文
摘要:
Given an array nums, write a function to move all 0's to the end of it while maintaining the relative order of the non-zero elements. 一题目: Given an ar 阅读全文
摘要:
1.给定数组[1,1,1,2,2,2,4,5,6,4,2,1] 很多时候,需要针对该数组创建一个给不包含重复元素的新数组。 这时,为了避免占用额外的空间去统计新数组的长度素,我们可以通过求解旧数组中最大值的方法来求解长度。 例如该数组中最大值为6.那新数组的长度则最大为7.即0-6. 当然这个数组可 阅读全文
摘要:
一。简介 随机森林,即用随机的方式建立一个森林,森林是由很多决策树组成。每一个决策树之间都是没有关联的。在得到森林之后,对于测试集,要让每一棵决策树分别进行一下判断该样本属于哪一类。根据哪个类被选择的多,该样本就是属于哪一类。 比喻的说法: 每一棵决策树就是一个精通于某一个窄领域的专家(因为我们从M 阅读全文
摘要:
一。简介 Brich是典型的基于层次的聚类算法。最大的特点就是适合数据量特别大的数据集,处理速度很快,因为该算法扫描一遍数据集。 该算法是利用了一个树状结构来快速聚类,该结构类似平衡B+树。每一个叶子节点都包含若干个聚类特征。 阅读全文
摘要:
一。基于密度的聚类算法简介 DBSCAN是数据挖掘中最经典基于密度的聚类算法。 基于密度的聚类算法的核心是,通过某个点r邻域内样本点的数量来衡量该点所在空间的密度。和k-means算法的不同的是: 1.可以不需要事先指定cluster的个数。 2.可以找出不规则形状的cluster。 二。DBSCA 阅读全文
摘要:
大家接触的第一个聚类方法,十有八九都是K-means聚类啦。该算法十分容易理解,也很容易实现。其实几乎所有的机器学习和数据挖掘算法都有其优点和缺点。那么K-means的缺点是什么呢? 总结为下: (1)对于离群点和孤立点敏感; (2)k值选择; (3)初始聚类中心的选择; (4)只能发现球状簇。 对 阅读全文
摘要:
一。为什么要使用soket编程 进程之间通信的前提是需要能够唯一的标识一个进程。在本地通信可以使用PID唯一的标识一个进程。在网络中两个进程的冲突几率很大。 不过,网络层的ip地址可以唯一的标识一台主机,传输层的协议和端口号可以唯一的标识一台主机上的一个进程。 因此,ip地址+协议+端口号 就可以唯 阅读全文
摘要:
一。问题: 夜晚n位旅行者要过桥,总共只有一个手电筒,一次最多两人过桥,且过桥必须使用手电筒。每位旅行者单独过桥的所需的时间已知,两人结伴渡桥所用的时间为两人中最长的时间。 求解所有人过桥所用的总时间最短是多少。 二。分析: 因为只有一个手电筒,必定有人过桥之后,还要将手电筒送回来。 若n=1,或n 阅读全文
摘要:
方法一:利用异或字符的数值进行反转实现字符的反转,该方法不使用额外的变量。 使用异或交换数值的原理: 大家都知道,假如有a,b两个整型数,我们可以用 a^=b;b^=a;a^=b; 来交换a,b的值,在这里我说说其中的原理:^ 在 C 里面是按位异或操作符,相同的话异或的结果就是 0,不同的话就是 阅读全文