中文分词
摘要:ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注 2006-11-09 11:01 ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注风暴红QxRed @ 2006-04-20 20:38 中科院分词系统概述 这几天看完...
阅读全文
posted @
2007-03-07 17:57
riky
阅读(890)
推荐(0) 编辑
数据本类
摘要:摘要 本文介绍了在数据挖掘中数据分类的几个主要分类方法,包括:贝叶斯分类、决策树分类、感知器分类,及其各自的优势与劣势。并对于分类问题中出现的高维效应,介绍了两种通用的解决办法。 关键词 数据分类 贝叶斯分类 决策树分类 感知器分类 引言 数据分类是指按照分析对象的属性、特征,建立不同的组类来描述事物。数据分类是数据挖掘的主要内容之一,主要是通过分析训练数据样本,产生...
阅读全文
posted @
2007-03-07 17:55
riky
阅读(330)
推荐(0) 编辑
统计词汇
摘要:统计术语 TAG:教育理论 A acceptance region 接受区域adjusted 校正的allocation 配置、布局alternative hypothesis 备择假设* analysis of variance 方差分析* analysis of covariance 协方差分析ANOCOVA =Analysis of covariance* ANOVA =...
阅读全文
posted @
2007-01-18 18:14
riky
阅读(4068)
推荐(0) 编辑
Google 核心团队
摘要:我们驱动之家昨天参加了Google中国公司总裁李开复教授上海的小型媒体会,李开复教授对Google中国未来的发展计划以及战略进行了展望以及阐述,帮助我们深一步了解了Google在中国的推广以及现有部署。1.Google:人才为重Google正式进入中国已达9个月,在这9个月中,Google中国在人才招聘上获得了破记录的成绩--首批招聘便获得了80名本土工程师人才,与Google总部调拨人员组成了1...
阅读全文
posted @
2007-01-18 16:06
riky
阅读(661)
推荐(0) 编辑
关于矩阵运算和文本处理中的分类问题 来自Google 研究员,吴军
摘要:我在大学学习线性代数时,实在想不出它除了告诉我们如何解线性方程外,还能有什么别的用途。关于矩阵的许多概念,比如特征值等等,更是脱离日常生活。后来在数值分析中又学了很多矩阵的近似算法,还是看不到可以应用的地方。当时选这些课,完全是为了混学分的学位。我想,很多同学都多多少少有过类似的经历。直到后来长期做自然语言处理的研究,我才发现数学家们提出那些矩阵的概念和算法,是有实际应用的意义的。在自然语言处理中...
阅读全文
posted @
2007-01-10 16:50
riky
阅读(1471)
推荐(0) 编辑
TF-IDF讲义 来自GOOGLE黑板报
摘要:[我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个有一定编程基础的读者应该可以写一个简单的搜索引擎了,比如为您所在的学校或院系建立一个小的搜索引擎。]我们还是看上回的例子,查找关于“原子能的应用”的网页。我们第一步是在索引中找到包含这三个词的网页(详见关于布尔运算的系列)。现在任何一个搜索...
阅读全文
posted @
2007-01-10 16:41
riky
阅读(3142)
推荐(1) 编辑
VSM应用2
摘要:余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似性。为了做到这一点,我们需要想办法用一组数字来描述一篇新闻。我们来看看怎样找一组数字,或者说一个向量来描述一篇新闻...
阅读全文
posted @
2007-01-10 16:26
riky
阅读(516)
推荐(0) 编辑
数学基础1
摘要:设 a =(a1,a2,a3), b =(b1,b2,b3), A(x1,y1,z1),B(x2,y2,z2), 则 a+b =(a1+b1,a2+b2,a3+b3); a-b =(a1-b1,a2-b2,a3-b3); λa =(λa1,λa2,λa3)(λ∈ R); a·b =a1b1+a2b2+a3b3; a∥b a1=λb1,a2=λb2,a3=λb3(λ∈ R); a⊥b ...
阅读全文
posted @
2007-01-10 16:21
riky
阅读(309)
推荐(0) 编辑
VSM应用一
摘要:在向量空间模型中,文本泛指各种机器可读的记录。用D(Document)表示,特征项(Term,用t表示)是指出现在文档D中且能够代表该文档内容的基本语言单位,主要是由词或者短语构成,文本可以用特征项集表示为D(T1,T2,…,Tn),其中Tk是特征项,1<=k<=N。例如一篇文档中有a、b、c、d四个特征项,那么这篇文档就可以表示为D(a,b,c,d)。对含有n个特征项的文本而言,通常会给每个特征...
阅读全文
posted @
2007-01-10 16:18
riky
阅读(391)
推荐(0) 编辑
Hlink的Analysis基本搞定了
摘要:Hlink的Analysis基本搞定了,发现crawler部分的东西又忘了~~呵呵从今天开始我要把Crawler部分的思路理清楚,后天开始正式进入第二阶段!
阅读全文
posted @
2007-01-03 16:17
riky
阅读(233)
推荐(0) 编辑
Action for FLEX
摘要:词法分析器采取的操作 当词法分析器与说明文件规则部分中的一个扩展正则表达式匹配时,它执行与扩展正则表达式相对应的操作。没有足够的规则匹配输入流中的所有字符串,词法分析器则将输入复制到标准输出。因此,不要创建仅将输入复制到输出的规则。缺省的输出能够帮助在规则中查找间隔。 当使用 lex 命令处理由 yacc 命令产生的解析器的输入时,请提供与所有输入字符串匹配的规则。那些规则必须生成 yacc 命令...
阅读全文
posted @
2007-01-02 20:25
riky
阅读(810)
推荐(0) 编辑
input/output/unput--lex related
摘要:Lex允许直接使用I/O例程。它们是: input(),返回下一个输入字符; output(c),将字符c写入输出 unput(c),将字符c压回输入流,下次input()时被读出。 这些例程都有默认的宏定义,但是用户可以重写它们以适应不同的需求。这些例程定义了外部文件和内部字符之间的关系,并且只能同时存在或更改。它们可以被...
阅读全文
posted @
2007-01-02 20:22
riky
阅读(994)
推荐(0) 编辑
Multiple input buffers for Flex
摘要:Multiple input buffers Some scanners (such as those which support "include" files) require reading from several input streams. As flex scanners do a large amount of buffering, one cannot control wher...
阅读全文
posted @
2006-12-31 16:45
riky
阅读(443)
推荐(0) 编辑
list_head实践
摘要:''~`` ( o o )+------------------.oooO--(_)--Oooo.---------------------+| Rick Wang || E-mail: r...
阅读全文
posted @
2006-12-29 17:23
riky
阅读(909)
推荐(0) 编辑
linux 内核分析之list_head
摘要:本文详细分析了 2.6.x 内核中链表结构的实现,并通过实例对每个链表操作接口进行了详尽的讲解。 一、 链表数据结构简介链表是一种常用的组织有序数据的数据结构,它通过指针将一系列数据节点连接成一条数据链,是线...
阅读全文
posted @
2006-12-28 17:08
riky
阅读(30210)
推荐(2) 编辑
char p[] 和 char *p
摘要:在函数里char p[] = "hello world" 与 char *p = "Hello world" 造成的效果不一样,为什么?请高人告知! 请看两个程序: (1) char *GetString(void) { char p[] = "Hello world"; return p; } void main() { char *str = NULL; str = GetString(); ...
阅读全文
posted @
2006-12-28 15:48
riky
阅读(2480)
推荐(0) 编辑
not human being~~~
摘要:以下所说 也许不是什么新东西,只是今天我才知道 typedef struct { int min; char ch; char ch1; int min1;}str;printf("%x", (unsigned long) ( &( (struct str *)0->;min ) ) )printf("%x", (unsigned long) ( &( (struct ...
阅读全文
posted @
2006-12-28 15:43
riky
阅读(337)
推荐(0) 编辑
linux 内存相关~~~~集~~
摘要:源程序如下#include /*C99标准*/int main(void){ int zippo[4][2] = { {2,4},{6,8},{1,3},{5,7} } printf("zippo=%p,zippo+1=%p\n", zippo, zippo+1); printf("*(*(zippo+2)+1)=%d\n",*(*(zippo+2)+1));...
阅读全文
posted @
2006-12-28 10:47
riky
阅读(628)
推荐(0) 编辑
LEX---Start conditions
摘要:Start conditions flex provides a mechanism for conditionally activating rules. Any rule whose pattern is prefixed with "" will only be active when the scanner is in the start condition named "sc". For...
阅读全文
posted @
2006-12-26 18:05
riky
阅读(711)
推荐(0) 编辑