2014年6月3日
摘要: 一,基础部分1.简单的转义字符\r 回车 \n 换行 \\ '\'字符本身 2.与多种字符匹配的表达式 \d 数字,0-9中的一个 \w 任意字符、数字、下划线,a-z,A-Z,0-9,_中的一个 \s 空格、制表符、换页符中等空白字符中的一个 . 除了换行符\n的任意一个字符 ... 阅读全文
posted @ 2014-06-03 21:40 onesteng 阅读(131) 评论(0) 推荐(0) 编辑
  2014年4月25日
摘要: 输入文件:module.cpp module.h module.i VS配置步骤: 0.通过配置管理器调到release模式 1.文件-新建-从现有代码中创建项目 2. 3. 选择包含module.cpp的目录,项目名称为.i文件中%module中定义的模块名称 4. 项... 阅读全文
posted @ 2014-04-25 16:34 onesteng 阅读(1020) 评论(0) 推荐(0) 编辑
  2014年3月22日
摘要: TODO:为什么时间复杂度为nlogn?快排的实现分为两个函数Partition和QuickSort时间复杂度为O(nlogn) 实现如下://参数如下://i初始值为low -1,指向传入数组的前一个位置;i表示的已经排好顺序且小于KEY的最后一个元素的index;//j初始值为low,指向数组开始的位置;指向已排序的部分(包括大于key和小于key的部分)的下一个index//j遍历数组,如果array[j]小于Key,i++;这时i指向的是大于KEY的元素,swap(array[i],array[j])将大于KEY的值(array[i])//与小于KEY的值(array[j])交换int 阅读全文
posted @ 2014-03-22 21:32 onesteng 阅读(358) 评论(0) 推荐(0) 编辑
  2014年3月13日
摘要: 整理上来K均值 阅读全文
posted @ 2014-03-13 00:47 onesteng 阅读(107) 评论(0) 推荐(0) 编辑
  2014年3月11日
摘要: 1.KNN原理:2.KNN特点:2.1.惰性学习。将所有计算推迟到分类(test)阶段之后。2.2.要求邻居已经正确分类。这被视为当做训练样本集的算法2.3.一般情况下,计算欧氏距离。要求变量是连续的。对于文本分类这种非连续的,可以使用重叠度量或者海明距离作为度量。2.4.多数表决。2.5.基于实例的学习3.KNN步骤:3.1.计算新输入样本距离所有训练样本的距离。遍历所有的样本3.2.选择K个距离最小的训练样本。排序算法3.3.计算这K个样本中所含样本数最多的类。计数4.KNN缺陷及改进方法:4.1.计算量大。需要计算新输入样本到所有样本的距离。4.2.K值不能自适应,需要提前设定哪种算法的 阅读全文
posted @ 2014-03-11 23:25 onesteng 阅读(593) 评论(0) 推荐(0) 编辑
摘要: 随机森林由决策树组成,这些决策树是随机的,随机性由随机选择属性、数据决定。由于这个特点,这些决策树也叫随机决策树。随机性可以避免过分拟合。测试数据进入随机森林时,实质是由一个个决策树进行分类,最后的类别由这些决策树的输出的众数决定。ID3、C4.5算法的区别是,ID3处理离散值,C4.5处理连续值某个属性的信息增益越大,说明这个属性越重要。随机森林构造过程: 5.1如果数据集包含N条数据,则随机有放回的选择N个样本.这是决策树随机性的一个保证. 5.2当有M个属性时,在决策树每次需要分裂时,从M个属性中随机选择m个属性(m<<M).在这m个属性中,选择一种策略进行分裂(信息增益), 阅读全文
posted @ 2014-03-11 00:08 onesteng 阅读(1706) 评论(0) 推荐(0) 编辑
  2014年3月10日
摘要: 1.名词 NameNode、DataNode、机架、Client、File、Block、Package2.组件间的关系: 2.1.机架通过交换机相连,HDFS假设:在同一个机架之间传输数据比机架间传输数据快。 2.2.NameNode、DataNode指实现不同功能的服务器。NN只用一台,DN需要若干台。 2.3.一个File在HDFS中按照Block存储,冗余,一般为3份(可配置)。一份位于NN机架上,另外两份位于相同但不同于NN的机架上。即,1T的数据,需要3T的物理存储空间,3T的网络流量。 2.4.NN,管理客户端读写请求,管理HDFS命名空间,管理数据块映射;DN,以Blo... 阅读全文
posted @ 2014-03-10 21:22 onesteng 阅读(362) 评论(0) 推荐(0) 编辑
  2013年9月4日
摘要: 一、解决冲突 解决冲突有两种方法: 1、开放地址法(OPEN HASHING\CLOSED ADDRESSING) 开放地址法的基本思想:发生冲突时,按照某种方法继续查找哈希表中的其他位置,直到找到空位置。公式表示该过程如下: 其中:H(key)为key的直接哈希地址,di为再探测时的地址增量,m为哈希表长度。 根据di选取方法的不同,开放地址法又分为: ... 阅读全文
posted @ 2013-09-04 09:34 onesteng 阅读(154) 评论(0) 推荐(0) 编辑