伪Trei树 词典存储方式 敏感词检测

摘要: 伪Trei,现在机器空间那么大, 用不着弄个字符集吧,每次找后继结点 累啊累死了, 虽然很水, 但是这个方法还是比较可取的吧。 一种比较经典的词典存储方式。可以用来当 词典 、 敏感词汇检测、我下面这个例子就是敏感词汇检测的、 很简单、用C#就是比较方便。 使用方法就是先定义一个Trei类初始化Trei的时候用list<string> 来存放一堆匹配敏感词,或者你的词典中的字。然后调用Trei类的方法is_dirty()来验证是不是在里面。另外, 把之改成Trei图的话, 可以容错输入等。class Trei { private List<string> dirty_w 阅读全文
posted @ 2011-02-18 10:37 amojry 阅读(780) 评论(0) 推荐(0) 编辑

Html convert to DOM Tree

摘要: 添加引用 Microsoft.mshtml 并且把项目的属性中的非安全运行允许 但是感觉是不是 html内容不规则的时候, 会崩溃. OMG, 是不是能够有更好的方式来解析这个html内容呢>>> 望见文者, 推荐推荐. 谢谢 using System;using System.Collections.Generic;using System.ComponentModel;us... 阅读全文
posted @ 2010-09-23 13:26 amojry 阅读(1116) 评论(0) 推荐(0) 编辑

ref vs out. C#

摘要: ref是传递参数的地址,out是返回值,两者有一定的相同之处,不过也有不同点。    使用ref前必须对变量赋值,out不用。   out的函数会清空变量,即使变量已经赋值也不行,退出函数时所有out引用的变量都要赋值,ref引用的可以修改,也可以不修改。   区别可以参看下面的代码: using System; class TestApp {  static void outTest(out i... 阅读全文
posted @ 2010-09-09 16:55 amojry 阅读(387) 评论(0) 推荐(0) 编辑

zz backgroundworker C#

摘要: 程序代码 BackgroundWorker组件在VS2005中添加了BackgroundWorker组件,该组件在多线程编程方面使用起来非常方便,然而在开始时由于没有搞清楚它的使用机制,走了不少的弯路,现在把我在使用它的过程中的经验与诸位分享一下。 BackgroundWorker类中主要用到的有这列属性、方法和事件: 重要属性: 1、CancellationPending 获取一个值,指示应用程... 阅读全文
posted @ 2010-09-08 20:14 amojry 阅读(308) 评论(0) 推荐(0) 编辑

SMT 简要

摘要: // first of all, it has been a long time since I write my last blog... so , let me tell you what i've done these dayz.1 到北京了2 报道了3 感冒了4 水土不服了5 开始SMT了。 不多说, 转正题吧。 介绍一本自然语言处理中,统计机器翻译的入门workbook。A stat... 阅读全文
posted @ 2010-09-08 13:46 amojry 阅读(271) 评论(0) 推荐(0) 编辑

JAVA 事件监听器/事件

摘要: 事件:MouseEvent/ KeyEvent等等. 对于一个frame要addMouseListener( 你定义的监听事件) 例如: class Monitor extends MouseAdapter.. 再实现对应的操作. 查API文档 在对应的frame类中, 定义paint.. paint的作用就是绘制. 自动绘制, 当窗口被覆盖等等..时候再出现时候会重绘制 paint会一直被... 阅读全文
posted @ 2010-08-26 12:13 amojry 阅读(1493) 评论(0) 推荐(0) 编辑

C# 中文分词[基于统计的朴素贝叶斯算法]

摘要: bestSegSolution = max( solutions(segSlution[i] )); 4.对于一句汉字的分词可以看做 seg( StringIn ) = firPart + seg(StringIn – firPart); // 我用score来衡量当前分词结果的好坏 6。 朴素贝叶斯的意思就是: 分词后的, 两个词之间是相互独立的, 也就是后者的出现与前者无关//1. 统计每个... 阅读全文
posted @ 2010-08-23 16:43 amojry 阅读(3271) 评论(3) 推荐(2) 编辑

JAVA TCP/IP 同步传递消息 初步 学习

摘要: TCPServer.java: import java.net.*; // TCP/IP Socket编程所用包import java.io.*; public class TCPServer{ public static void main( String[] args ) throws Exception { ServerSocket ss = new ServerSocket(6666)... 阅读全文
posted @ 2010-08-22 12:51 amojry 阅读(1948) 评论(0) 推荐(0) 编辑

java 多线程同步/ 消费者生产者问题.

摘要: 多线程下要注意的地方:1. this.wait()和this.notify()要成对使用;2. 对于sychronized要慎重. 上锁/不上锁要谨慎考虑. 用了可能会在效率上下降, 不用可能导致不可预测的结果值.3. wait 和 thread.sleep()有很大差别: wait是object类中的方法, 而sleep是thread下的方法. wait表示指的是当前的线程进行wait... 而... 阅读全文
posted @ 2010-08-21 19:23 amojry 阅读(568) 评论(1) 推荐(1) 编辑

C# TIMER定时激活某个时间/ StopWatch来计算模块计算时间

摘要: 启动以后自动将一个Timer激活,在Timer时间到的时候触发this.Closepublic partial class Form1 : Form { Timer 我的计时器 = new Timer(); public Form1() { InitializeComponent(); } private void Form1_Load(object sender, EventArgs e) { ... 阅读全文
posted @ 2010-08-21 11:31 amojry 阅读(1060) 评论(0) 推荐(0) 编辑

lucene[java] 搜索框架初步

摘要: 一般的索引结构建立的是一种“文档到单词”的映射关系,而倒排索引建立的则是一种“单词到文档”的映射关系。因为在日常的检索中,通常都是按照关键字进行搜索的,所以,倒排索引可以更好地适合这种检索机制的需要。这也是倒排索引如今被大规模使用的原因. BuildIndex 阅读全文
posted @ 2010-08-21 09:06 amojry 阅读(846) 评论(0) 推荐(0) 编辑

Python 嵌入C++/C等

摘要: TCHAR Buffer[BUFSIZ]; DWORD dwRet = GetCurrentDirectory(BUFSIZ,Buffer); WideCharToMultiByte( CP_ACP, WC_COMPOSITECHECK, (Buffer), -1, ch, sizeof(ch), NULL, NULL ); 阅读全文
posted @ 2010-08-20 21:50 amojry 阅读(2352) 评论(0) 推荐(0) 编辑

zz CHAR, TCHAR, WCHAR_T .. ANSI&Unicode [修改]

摘要: 一.ANSI和UNICODEANSI字符和Unicode字符 ANSI字符类型为CHAR,指向字符串的指针PSTR(LPSTR),指向一个常数字符串的指针PCSTR(LPCSTR);对应的Windows定义的Unicode字符类型为WCHAR(typedef WCHAR wchar_t) ,指向Unicode字符串的指针PWSTR ,指向一个常数Unicode字符串的指针PCWSTR 。 ANS... 阅读全文
posted @ 2010-08-20 16:55 amojry 阅读(677) 评论(0) 推荐(0) 编辑

慵懒的七月八月. 九月终于要开始新的生活了

摘要: 散漫的两个月过去了,可谓是荒淫无度, 自打进大学后首个暑假过得这么的悠闲惬意. 所以难以避免的萌生了我当下的担忧与恐惧.我想岁月如果都是在麻木不仁中度过,那么当终了的时刻.或许所有麻木不仁的代价全会蜂拥而至.这便是公平.对于任何一个人都如此. 我爱看行人以及他们的表情, 然后肆无忌惮的窥探揣摩他们的心理. 任何人任何事都是如此. 终于有一天我想到: 其实每个人的人生, 都是等体积的. 从x轴方向向... 阅读全文
posted @ 2010-08-19 17:18 amojry 阅读(201) 评论(0) 推荐(0) 编辑

Python 学习手记 pt5 模块

摘要: 如果你想要在其他程序中重用很多函数,那么你该如何编写程序呢?你可能已经猜到了,答案是使用模块。模块基本上就是一个包含了所有你定义的函数和变量的文件。为了在其他程序中重用模块,模块的文件名必须以.py为扩展名。 模块可以从其他程序 输入 以便利用它的功能。这也是我们使用Python标准库的方法。 首先,我们利用import语句 输入 sys模块。基本上,这句语句告诉Python,我们想要使用这个模... 阅读全文
posted @ 2010-08-12 16:51 amojry 阅读(437) 评论(0) 推荐(0) 编辑