摘要:
package Alg;public class BSTree { private BSTreeNode root = null; //树根节点 private int count = 0; //树的节点数 public int getCount() { return count; } public enum MatchType {E, GE, LE}; /** * 根据值进行搜索 * @param val 匹配值 * @param matchType 匹配方式 E为严格相等匹配,GE为大于等于匹配,LE为小于等于匹配 * @return 匹配模式为E时,如果没有找到匹配项,... 阅读全文
摘要:
安装前提条件:完成JDK的安装安装:1、从此处下载安装包http://developer.android.com/sdk/index.html#download。得到文件adt-bundle-windows-x86_64-20131030.zip2、解压文件得到如下是的,就这么简单,这就是整个安卓的开发环境了。无需任何配置,因为下载的开发包已经完成的所有的配置,如果需要在自己的eclipse中进行开发环境的配置,暂时俺还不知道开发1、创建第一个程序(参考http://developer.android.com/training/basics/firstapp/creating-project. 阅读全文
摘要:
碰到诸如dongfangmingzhu这样的拼音,需要将其拆分为空格隔开的形式(dong fang ming zhu)。第一方案想通过声母韵母的规则进行分割。但是,由于规则的整理容易遗漏,并且没有可借鉴的,所以转为通过匹配固定拼音形式的方式进行分割从在线新华字典得到汉字拼音表,结果并不全,在调试代码的过程中,增补了一些,记录如下,如有遗漏,还请指出 public static final String aoePinyin = "a o e ai ao ou er an en ang eng"; public static final String bPinyin = &qu 阅读全文
摘要:
比较简单明了的介绍文章http://www.cnblogs.com/wlitsoft/archive/2012/06/01/2531320.htmlhttp://www.cnblogs.com/wlitsoft/archive/2012/06/03/2532291.html介绍razerhttp://weblogs.asp.net/scottgu/archive/2010/07/02/introducing-razor.aspx 阅读全文
摘要:
1、统计词频。重点在于统计后的排序 Dictionary dws = new Dictionary(); WordStatistic ws = null; foreach (string s in words) { if (dws.ContainsKey(s)) { dws.TryGetValue(s... 阅读全文
摘要:
git使用记录一、windows下git服务器的安装http://www.cnblogs.com/ytliyang/archive/2012/02/12/2347987.html二、git使用入门常用命令简介http://rogerdudler.github.io/git-guide/index.z... 阅读全文
摘要:
在这个世界上,同一个事物,由于种种原因,在称呼上会存在细微的差别。比如“紫荆花酒店”和“紫荆花大酒店”指的是相同的一家酒店,但是在不同的OTA网站,或者酒店收录网站,可能使用的是不同名字。因此,在使用爬虫做酒店的数据库时,对酒店的去重就是一项很重要的任务。可以通过名字、地址和坐标进行酒店唯一性的判断根据名字和地址进行去重,较好的方式是使用simhash的方式进行名称的近似匹配(参考http://www.cnblogs.com/linecong/archive/2010/08/28/simhash.html)在这之后可以继续使用所在的坐标进行去重 阅读全文
摘要:
环境vs2010,.net1、使用wsHttpBinding和basicHttpBinding对于loadrunner和是soapui会产生影响。在使用wsHttpBinding作为WCF的绑定(bindings)说明时,产生的WSDL协议和basicHttpBinding产生的协议不同。basicHttpBinding产生的是标准的webservice协议。使用wsHttpBinding时,将会导致loadrunner和soapui的调用发生错误2、在使用VS2010编程的时候,一定不要使用“Service References”进行WCF的服务添加,因为会在本地生成服务调用代理。一旦服务的 阅读全文
摘要:
1、有限数据的同构运行2、对于无限数据,无限个有限数据的同构运行3、同构,数据相同,运行环境相同,最终目标得出的结果相同根据1,3,需要一个组件,知道范围内的同构节点,并使这些节点保持一致根据2,需要一个管理集群的组件,能够将数据判定为在哪个集群中应用 阅读全文
摘要:
基于关键词的识别的问题。1、在关键字中插入字符会导致关键字识别率下降 2、关键词的扩充问题改进方向 原理:基于信息内容和统计的识别方式假设正常用户产生数据具有如下信息: 1、在用户产生的信息中,信息的分布是均匀的,也就是重复性很小 2、数字信息所占百分比较低解决方案设计 1、根据假设1,统计无效字符和汉字字符的比例,无效字符超过汉字可认为广告嫌疑较高 2、根据假设2,统计数字出现频率,数字出现次数过高认为广告嫌疑较大 3、根据假设1,统计重复出现的汉字占文章中汉字总数的比率,超过一定比率认为信息重复,广告嫌疑较大 4、建立常见广告字库,对文章中广告字进行统计和比例计算------------- 阅读全文