08 2013 档案

摘要:SimHash算法 由于实验室和互联网基本没啥关系,也就从来没有关注过数据挖掘相关的东西。在实际工作中,第一次接触到匹配和聚类等工作,虽然用一些简单的匹配算法可以做小数据的聚类,但数据量达到一定的时候就束手无策了。 所以,趁着周末把这方面的东西看了看,做个笔记。来历 google的论文“detecting near-duplicates for web crawling”--------simhash。 Google采用这种算法来解决万亿级别的网页的去重任务。 基本思想 simhash算法的主要思想是降维,将高维的特征向量映射成一个低维的特征向量,通过两个向量的Hamming Di... 阅读全文
posted @ 2013-08-31 17:05 cococo点点 阅读(7081) 评论(5) 推荐(5) 编辑
摘要:1 shell 的$! ,$?, $$,$@$n $1 the first parameter,$2 the second...$# The number of command-line parameters.$0 The name of current program.$? Last command or function's return value.$$ The program's PID.$! Last program's PID.$@ Save all the parameters.almost any shell book will tal... 阅读全文
posted @ 2013-08-29 15:51 cococo点点 阅读(359) 评论(0) 推荐(0) 编辑
摘要:重建二叉树题目 输入某二叉树的前序遍历和中序遍历,请重建出该二叉树。假设输入的前序遍历和中序遍历的结果中都不含有重复的数字。 例如,前序遍历序列:{1,2,3,7,3,5,6,8},中序遍历序列:{4,7,2,1,5,3,8,6}答案 前序遍历: 前序遍历首先访问根结点然后遍历左子树,最后遍历右子树。在遍历左、右子树时,仍然先访问根结点,然后遍历左子树,最后遍历右子树。 中序遍历: 中序遍历首先遍历左子树,然后访问根结点,最后遍历右子树。在遍历左、右子树时,仍然先遍历左子树,再访问根结点,最后遍历右子树。#include using namespace std;struct... 阅读全文
posted @ 2013-08-25 10:11 cococo点点 阅读(5392) 评论(2) 推荐(1) 编辑
摘要:BF(Brute-Force)算法 蛮力搜索,比较简单的一种字符串匹配算法,在处理简单的数据时候就可以用这种算法,完全匹配,就是速度慢啊。基本思想 从目标串s 的第一个字符起和模式串t的第一个字符进行比较,若相等,则继续逐个比较后续字符,否则从串s的第二个字符起再重新和串t进行比较。 依此类推,直至串t 中的每个字符依次和串s的一个连续的字符序列相等,则称模式匹配成功,此时串t的第一个字符在串s 中的位置就是t 在s中的位置,否则模式匹配不成功。具体实现 int BFindex(String S, String T) { if (S.size() T[0]) return... 阅读全文
posted @ 2013-08-24 21:00 cococo点点 阅读(7074) 评论(0) 推荐(0) 编辑
摘要:Python笔记(一)1.变量类型 Python 有五个内置的简单类型:bool、int、long、float和complex。这些类型是不可变的,就是说整数对象一旦创建,其类型便不可更改。 type()函数可以用来判断一个变量的类型 定义变量时候,不需要明确表明这个变量是那种类型,系统会自动... 阅读全文
posted @ 2013-08-24 11:53 cococo点点 阅读(1695) 评论(0) 推荐(0) 编辑
摘要:trie树 最近接触到数据处理这一块,也就自然接触到了Trie树。它又称字典树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索系统用于文本词频统计,与比哈希表比查询效率要高。主要思想 它的主要思想是空间换时间,利用字符串的公共前缀来降低查询时间的开销。 作为一种树型结构,利用不同的节点来保存某一信息的一位信息,该信息的的最大位数决定了tire数的深度。为了能表示所有可能的信息,它的每个节点的出度的最大值就是信息所包含的不同字符的最多个数。在每个单词的结尾我们需要保存这个单词的个数。 从树的根开始查询,按照深度优先来查询,直到... 阅读全文
posted @ 2013-08-18 11:35 cococo点点 阅读(481) 评论(0) 推荐(0) 编辑
摘要:AWK文本处理工具(Linux)PS:刚开始实习,就给了个处理百万级别数据的任务,以前学过SHELL的一些东西sed/awk之类的处理,但是也没有具体的应用,只是在10几行10几列的小数据操作过,所以要从新学习下,并应用在实际工作中。你可以用excel编辑还好,保存就卡死你!什么是AWK awk是什么?与其它大多数UNIX命令不同的是,从名字上看,我们不可能知道awk的功能,因为awk是三个人名的缩写,他们是:Aho、(Peter)Weinberg和(Brain)Kernighan。正是这三个人创造了awk---一个优秀的样式扫描与处理工具。AWK使用方法 awk语言最基本的功能是在文件或.. 阅读全文
posted @ 2013-08-10 17:23 cococo点点 阅读(3265) 评论(3) 推荐(0) 编辑