【算法】SimHash

摘要: package com.pachira.d;import java.math.BigInteger;/** * SamHash简介 * 1.基本思想 * LSH: The basic idea is to hash the input items so that similar items are... 阅读全文
posted @ 2014-12-12 14:07 有个姑娘叫小芳 阅读(359) 评论(0) 推荐(0) 编辑

【学习】Xpath

摘要: 1、Xpath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的2、Xpathhttp://zh.wikipedia.org/wiki/XPath(wiki)3、Xpathhttp://www.w3school.com.cn/xpath/xpath_syntax.... 阅读全文
posted @ 2014-12-10 14:28 有个姑娘叫小芳 阅读(200) 评论(0) 推荐(0) 编辑

【算法】PageRank

摘要: 1、基本概念:PageRank 是基于【从许多优质的网页链接过来的网页,必定还是优质网页】的回归关系,来判定所有网页的重要性2、具体算法:将某个页面的 PageRank 除以存在于这个页面的正向链接,由此得到的值分别和正向链接所指向的页面的 PageRank 相加,即是被链接的页面的 PageRan... 阅读全文
posted @ 2014-12-09 20:17 有个姑娘叫小芳 阅读(377) 评论(0) 推荐(0) 编辑

【线程】JAVA线程

摘要: PART ONE:线程的创建1、线程的创建可以分为两种方式:A)继承Tread类;B)实现Runnable接口2、两种创建线程的方式区别和联系主要有哪些? 1)、Java单继承机制,限制了Thread类的使用;然后可以通过实现Runnable接口实现多线程,同时也可继承其他类来实现其他功能; 2)... 阅读全文
posted @ 2014-12-02 15:03 有个姑娘叫小芳 阅读(199) 评论(0) 推荐(0) 编辑

【算法】基于树形结构分词

摘要: #!/usr/bin/env python#encoding=gbkimport osimport sysimport QueueG_ENCODING="gbk""""===============================中文分词1. 机械分词2. 统计分词3. 理解分词==========... 阅读全文
posted @ 2014-10-30 16:42 有个姑娘叫小芳 阅读(260) 评论(0) 推荐(0) 编辑

【概率论】贝叶斯法则

摘要: 基础知识描述:联合概率:定义:指在多元的概率分布中多个随机变量同时满足各自条件的概率。举例:假设X和Y都服从正态分布,那么P{X P(A|B) = P(B|A) * P(A) / P(B)故:贝叶斯法则是关于随机事件A和B的条件概率和边缘概率的。P(A|B) = P(B|A) * P(A) / P(... 阅读全文
posted @ 2014-10-24 16:39 有个姑娘叫小芳 阅读(543) 评论(0) 推荐(0) 编辑

数据结构--模式匹配

摘要: PART I:#!/usr/bin/env python#encoding=gbkimportsysdefBF():t="abbbbbbcdcdddcefg"p="bbbbcdcdddcef"i=0j=0printt, p, t.find(p)whilei <=(len(t)-len(p)):"""... 阅读全文
posted @ 2014-10-23 19:39 有个姑娘叫小芳 阅读(129) 评论(0) 推荐(0) 编辑

数据结构--插入排序

摘要: 插入排序算法主要有三种:直接插入排序、折半插入排序、希尔排序1、直接插入排序:/***直接插入排序,*1、从i-->length-1开始做插入扫描*2、初始化一个要插入的元素(1步骤中的)*3、从0-->i开始做插入排序操作*如果要插入的元素小于0-->i中的某一个元素,则做位置替换,*否者,执行第... 阅读全文
posted @ 2014-10-23 19:38 有个姑娘叫小芳 阅读(157) 评论(0) 推荐(0) 编辑

数据结构--二分查找

摘要: 二分法查找(折半查找)的基本思想:前提:顺序存储且元素有序(1)确定该区间的中点位置:mid=(low+high)/2min代表区间中间的结点的位置,low代表区间最左结点位置,high代表区间最右结点位置(2)将待查a值与结点mid的关键字(下面用R[mid].key)比较,若相等,则查找成功,否... 阅读全文
posted @ 2014-10-23 19:35 有个姑娘叫小芳 阅读(360) 评论(0) 推荐(0) 编辑

数据结构-- 二叉树

摘要: #!/use/bin/env python#encoding=gbkimportQueueclassStack():def__init__(self, volume=0):self.list=[0foriinrange(0,1000)]ifvolume==0else[0foriinrange(0,v... 阅读全文
posted @ 2014-10-23 19:32 有个姑娘叫小芳 阅读(184) 评论(0) 推荐(0) 编辑