Algorithm & da - 随笔分类(第2页) - March On

布隆过滤器

摘要：用于在大数据场景下快速查找（常数时间复杂度）某个元素是否在元素集合中出现的技术，允许有误判情况出现。典型应用场景是允许小概率误判的场景，比如邮箱中的垃圾邮件标记。从功能上来说与HashMap/HashSet、BitSet类似且查找效率都很高，但有区别，见下文分析。技术演化过程：要判断一个元素是否阅读全文

posted @ 2016-12-26 20:56 March On 阅读(440) 评论(0) 推荐(0) 编辑

（转）二进制与三进制趣题

摘要：转自：二进制与三进制趣题以下是全文： 1. 小明是个卖苹果的，小红一次在小明那买N（N<1024）个苹果。小明每次都要数N个苹果给小红，唉，太麻烦了。于是小明想出了一种方法：他把苹果分在10个袋子中，则无论小红来买多少个苹果，则他都可以整袋整袋的拿给小红。问怎样分配苹果到各个袋子？ 2. 有16种阅读全文

posted @ 2016-12-26 16:41 March On 阅读(1154) 评论(0) 推荐(0) 编辑

随机算法_模拟退火算法

摘要：转自：大白话解析模拟退火算法总结：模拟退火算法（SA,Simulated Annealing）是为了解决一些算法（如贪心算法）存在的陷入局部最优解的问题，其核心思想是在根据评价函数（如路径长度、距离等）靠近更优解的过程中也以一定的概率接受向非更优解靠近，以期跳出局部最优解。此“一定的概率”计算借鉴阅读全文

posted @ 2016-12-26 14:54 March On 阅读(893) 评论(0) 推荐(1) 编辑

Base64原理

摘要：一、Base64编码由来为什么会有Base64编码呢？因为有些网络传送渠道并不支持所有的字节，例如传统的邮件只支持可见字符的传送，像ASCII码的控制字符就不能通过邮件传送。这样用途就受到了很大的限制，比如图片二进制流的每个字节不可能全部是可见字符，所以就传送不了。最好的方法就是在不改变传统协议阅读全文

posted @ 2016-11-17 15:19 March On 阅读(323) 评论(0) 推荐(0) 编辑

Trie tree实践

摘要：1、Trie树 Trie树即字典树或前缀树， 2、实践代码实践如下： 1 package cn.edu.buaa.trie; 2 3 import java.util.HashSet; 4 5 /** 6 * @author zsm 7 * @date 2016年10月25日上午11:03:13 阅读全文

posted @ 2016-10-25 16:49 March On 阅读(276) 评论(0) 推荐(0) 编辑

随机选数算法

摘要：detail： 1 package cn.edu.buaa.randomSelectAlgo; 2 3 /** 4 * 等概率从n个数中随机选取m个数,概率为m/n。适用于数据能一次全读入的场景. 5 * 6 */ 7 public class Main_RamdomSelectAlgo { 8 s 阅读全文

posted @ 2016-09-22 21:42 March On 阅读(496) 评论(0) 推荐(0) 编辑

关系数据库（MySQL）原理学习小记（架构、索引、锁、日志、高可用/高性能等）

摘要：这里以MySQL为例。要掌握的主要内容是索引（优劣、类型、场景）、架构和存储引擎、日志（两阶段提交等）、事务、锁、分库分表等。 1 什么是索引数据库索引，是数据库管理系统中一个排序的数据结构。对数据记录建立索引后，每条索引记录包含：（1）值与相应数据记录被索引列的值一样的键（2）相应数据阅读全文

posted @ 2016-08-29 22:17 March On 阅读(814) 评论(0) 推荐(0) 编辑

分布式系统之一致性Hash算法

摘要：一致性Hash算法，用于解决分布式系统中数据分布的问题，做到均匀分布又在节点增减时少移动数据。这里的“一致”是指节点增减前后已有数据的存储位置尽可能“一致”，即节点增减后原来节点上的数据尽可能不用移动。可见，与通常中“客户端缓存的数据与服务端的一致（例如Lease机制）”中的“一致”有区别。一致阅读全文

posted @ 2016-08-25 17:35 March On 阅读(424) 评论(0) 推荐(0) 编辑

海量数据面试题集锦

摘要：总结：大多是需要词频统计后求词频TopK或者求词频最大的词。解法：若内存放得下则在内存统计词频并用堆排序；若放不下则先用hash将大文件分成N个小文件，接着对每个小文件分别统计词频和堆排序，分别得到该小文件内的TopK并写入小文件，最后对各小文件的TopK执行堆排序得到最终的TopK。对于内存阅读全文

posted @ 2016-05-06 15:18 March On 阅读(513) 评论(0) 推荐(1) 编辑

判断点是否在多边形内

摘要：参考：http://stackoverflow.com/questions/217578/how-can-i-determine-whether-a-2d-point-is-within-a-polygon 阅读全文

posted @ 2016-05-05 20:02 March On 阅读(242) 评论(0) 推荐(0) 编辑

R树空间索引及其变种

摘要：1、R树及其变种：百度百科 2、R树详介：http://blog.csdn.net/jazywoo123/article/details/7792745 3、R树及变种小结 R树：叶子节点或中间节点都可能有交集。衡量指标有查询性能和更新性能，更新通过删除和插入实现。 R+树：不允许中间节点有交集，所阅读全文

posted @ 2016-04-21 16:57 March On 阅读(1524) 评论(0) 推荐(0) 编辑

Kd-tree算法原理

摘要：转自： Kd Tree算法原理 Kd-Tree，即K-dimensional tree，是一棵二叉树，树中存储的是一些K维数据。在一个K维数据集合上构建一棵Kd-Tree代表了对该K维数据集合构成的K维空间的一个划分，即树中的每个结点就对应了一个K维的超矩形区域（Hyperrectangle）。 — 阅读全文

posted @ 2016-01-27 16:16 March On 阅读(1188) 评论(1) 推荐(1) 编辑

支持向量机

摘要：支持向量机从线性可分情况下的最优分类面发展而来。思想分类：寻找类间的分类平面，使得类到该分类平面的距离尽可能大，即分类平面两侧的空白区域尽可能大。映射：通常样本数据线性不可分，可以应用固定的非线性映射（核函数）将数据映射到高维空间中，在高维空间中的线性分类等价于原始空间中的非线性分类；在高维空间中计... 阅读全文

posted @ 2016-01-13 16:31 March On 阅读(208) 评论(0) 推荐(0) 编辑

集成学习原理：Adaboost

摘要：集成学习通过从大量的特征中挑出最优的特征，并将其转化为对应的弱分类器进行分类使用，从而达到对目标进行分类的目的。核心思想它是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器（弱分类器），然后把这些若分类器集合起来，构成一个更强的最终分类器（强分类器）。其算法本身是通过改变数据分布来实现的，... 阅读全文

posted @ 2016-01-07 14:41 March On 阅读(283) 评论(0) 推荐(0) 编辑

线性判别分析（LDA）准则：FIsher准则、感知机准则、最小二乘（最小均方误差）准则

摘要：准则采用一种分类形式后，就要采用准则来衡量分类的效果，最好的结果一般出现在准则函数的极值点上，因此将分类器的设计问题转化为求准则函数极值问题，即求准则函数的参数，如线性分类器中的权值向量。分类器设计准则：FIsher准则、感知机准则、最小二乘（最小均方误差）准则Fisher准则Fisher线性判别分... 阅读全文

posted @ 2016-01-07 14:16 March On 阅读(8965) 评论(0) 推荐(1) 编辑

极大似然估计、贝叶斯估计、EM算法

摘要：参考文献：http://blog.csdn.net/zouxy09/article/details/8537620极大似然估计已知样本满足某种概率分布，但是其中具体的参数不清楚，极大似然估计估计就是把待估参数看做是确定性的量，只是其取值未知。最佳估计就是使得产生当前样本的概率最大下的参数值。贝叶斯估... 阅读全文

posted @ 2016-01-06 23:47 March On 阅读(2716) 评论(0) 推荐(0) 编辑

SBT树

摘要：转自：http://jcf94.com/2015/06/19/2015-06-19-sbt/ 总结：二叉查找树（或称二叉搜索树、二叉排序树）：大的右边、小的左边。问题：不平衡，输入有序情况下从平均性能O(lgn)退化为O(n) 平衡树（平衡二叉查找树）：通过节点的左旋、右旋操作来维护二叉查找树的平阅读全文

posted @ 2015-12-28 11:22 March On 阅读(568) 评论(0) 推荐(0) 编辑

Chord算法

摘要：转自：http://blog.csdn.net/wangxiaoqin00007/article/details/7374833 虽然网上搜索CHord，一搜一大堆，但大多讲得不太清楚明白。今天发现一篇blog，图文并茂，逻辑清楚且易懂，特意转载收藏。 P2P的一个常见问题是如何高效的定位节点，也就阅读全文

posted @ 2015-12-18 20:44 March On 阅读(3379) 评论(0) 推荐(1) 编辑

匈牙利算法求解任务分配问题

摘要：转自：http://www.cnblogs.com/dwdxdy/p/3261742.html 阅读全文

posted @ 2015-12-14 14:01 March On 阅读(878) 评论(0) 推荐(0) 编辑

回溯与分支定界

摘要：一、一般回溯法描述•假定算法已经找到部分解为（x1, x2, …, xj）, 然后再考虑向量v=（x1, x2, …, xj ,xj+1）, 有下面的情况：（解向量中每个xi都属于一个有限的线序集Xi）1.如果v表示问题的最后解，算法记录下它作为一个解，在仅希望获得一个解时终止，或者继续去找出其他... 阅读全文

posted @ 2015-12-14 10:48 March On 阅读(959) 评论(0) 推荐(0) 编辑

MarchOn

【好记性不如烂笔头】、【众纷繁技术多同宗，当透过现象看本质】

随笔分类 - Algorithm & da