乐哈哈旅游视频网:
随笔 - 186  文章 - 1  评论 - 149  阅读 - 93万

随笔分类 -  Search Engine

上一页 1 2 3 4 5 下一页
crawler/index/indexing/cluster
中文分词
摘要:ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注 2006-11-09 11:01 ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注风暴红QxRed @ 2006-04-20 20:38 中科院分词系统概述 这几天看完... 阅读全文
posted @ 2007-03-07 17:57 riky 阅读(890) 评论(0) 推荐(0) 编辑
数据本类
摘要:摘要 本文介绍了在数据挖掘中数据分类的几个主要分类方法,包括:贝叶斯分类、决策树分类、感知器分类,及其各自的优势与劣势。并对于分类问题中出现的高维效应,介绍了两种通用的解决办法。 关键词 数据分类 贝叶斯分类 决策树分类 感知器分类 引言 数据分类是指按照分析对象的属性、特征,建立不同的组类来描述事物。数据分类是数据挖掘的主要内容之一,主要是通过分析训练数据样本,产生... 阅读全文
posted @ 2007-03-07 17:55 riky 阅读(330) 评论(0) 推荐(0) 编辑
WEB超链分析算法纵览
摘要:WEB超链分析算法纵览 ... 阅读全文
posted @ 2007-01-23 17:06 riky 阅读(878) 评论(2) 推荐(1) 编辑
统计词汇
摘要:统计术语 TAG:教育理论 A acceptance region 接受区域adjusted 校正的allocation 配置、布局alternative hypothesis 备择假设* analysis of variance 方差分析* analysis of covariance 协方差分析ANOCOVA =Analysis of covariance* ANOVA =... 阅读全文
posted @ 2007-01-18 18:14 riky 阅读(4068) 评论(2) 推荐(0) 编辑
Google 核心团队
摘要:我们驱动之家昨天参加了Google中国公司总裁李开复教授上海的小型媒体会,李开复教授对Google中国未来的发展计划以及战略进行了展望以及阐述,帮助我们深一步了解了Google在中国的推广以及现有部署。1.Google:人才为重Google正式进入中国已达9个月,在这9个月中,Google中国在人才招聘上获得了破记录的成绩--首批招聘便获得了80名本土工程师人才,与Google总部调拨人员组成了1... 阅读全文
posted @ 2007-01-18 16:06 riky 阅读(661) 评论(0) 推荐(0) 编辑
关于矩阵运算和文本处理中的分类问题 来自Google 研究员,吴军
摘要:我在大学学习线性代数时,实在想不出它除了告诉我们如何解线性方程外,还能有什么别的用途。关于矩阵的许多概念,比如特征值等等,更是脱离日常生活。后来在数值分析中又学了很多矩阵的近似算法,还是看不到可以应用的地方。当时选这些课,完全是为了混学分的学位。我想,很多同学都多多少少有过类似的经历。直到后来长期做自然语言处理的研究,我才发现数学家们提出那些矩阵的概念和算法,是有实际应用的意义的。在自然语言处理中... 阅读全文
posted @ 2007-01-10 16:50 riky 阅读(1471) 评论(2) 推荐(0) 编辑
TF-IDF讲义 来自GOOGLE黑板报
摘要:[我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个有一定编程基础的读者应该可以写一个简单的搜索引擎了,比如为您所在的学校或院系建立一个小的搜索引擎。]我们还是看上回的例子,查找关于“原子能的应用”的网页。我们第一步是在索引中找到包含这三个词的网页(详见关于布尔运算的系列)。现在任何一个搜索... 阅读全文
posted @ 2007-01-10 16:41 riky 阅读(3142) 评论(2) 推荐(1) 编辑
VSM应用2
摘要:余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似性。为了做到这一点,我们需要想办法用一组数字来描述一篇新闻。我们来看看怎样找一组数字,或者说一个向量来描述一篇新闻... 阅读全文
posted @ 2007-01-10 16:26 riky 阅读(516) 评论(1) 推荐(0) 编辑
数学基础1
摘要:设 a =(a1,a2,a3), b =(b1,b2,b3), A(x1,y1,z1),B(x2,y2,z2), 则 a+b =(a1+b1,a2+b2,a3+b3); a-b =(a1-b1,a2-b2,a3-b3); λa =(λa1,λa2,λa3)(λ∈ R); a·b =a1b1+a2b2+a3b3; a∥b a1=λb1,a2=λb2,a3=λb3(λ∈ R); a⊥b ... 阅读全文
posted @ 2007-01-10 16:21 riky 阅读(309) 评论(0) 推荐(0) 编辑
VSM应用一
摘要:在向量空间模型中,文本泛指各种机器可读的记录。用D(Document)表示,特征项(Term,用t表示)是指出现在文档D中且能够代表该文档内容的基本语言单位,主要是由词或者短语构成,文本可以用特征项集表示为D(T1,T2,…,Tn),其中Tk是特征项,1<=k<=N。例如一篇文档中有a、b、c、d四个特征项,那么这篇文档就可以表示为D(a,b,c,d)。对含有n个特征项的文本而言,通常会给每个特征... 阅读全文
posted @ 2007-01-10 16:18 riky 阅读(391) 评论(0) 推荐(0) 编辑
Hlink的Analysis基本搞定了
摘要:Hlink的Analysis基本搞定了,发现crawler部分的东西又忘了~~呵呵从今天开始我要把Crawler部分的思路理清楚,后天开始正式进入第二阶段! 阅读全文
posted @ 2007-01-03 16:17 riky 阅读(233) 评论(0) 推荐(0) 编辑
Action for FLEX
摘要:词法分析器采取的操作 当词法分析器与说明文件规则部分中的一个扩展正则表达式匹配时,它执行与扩展正则表达式相对应的操作。没有足够的规则匹配输入流中的所有字符串,词法分析器则将输入复制到标准输出。因此,不要创建仅将输入复制到输出的规则。缺省的输出能够帮助在规则中查找间隔。 当使用 lex 命令处理由 yacc 命令产生的解析器的输入时,请提供与所有输入字符串匹配的规则。那些规则必须生成 yacc 命令... 阅读全文
posted @ 2007-01-02 20:25 riky 阅读(810) 评论(0) 推荐(0) 编辑
input/output/unput--lex related
摘要:Lex允许直接使用I/O例程。它们是: input(),返回下一个输入字符; output(c),将字符c写入输出 unput(c),将字符c压回输入流,下次input()时被读出。 这些例程都有默认的宏定义,但是用户可以重写它们以适应不同的需求。这些例程定义了外部文件和内部字符之间的关系,并且只能同时存在或更改。它们可以被... 阅读全文
posted @ 2007-01-02 20:22 riky 阅读(994) 评论(0) 推荐(0) 编辑
Multiple input buffers for Flex
摘要:Multiple input buffers Some scanners (such as those which support "include" files) require reading from several input streams. As flex scanners do a large amount of buffering, one cannot control wher... 阅读全文
posted @ 2006-12-31 16:45 riky 阅读(443) 评论(0) 推荐(0) 编辑
list_head实践
摘要:''~`` ( o o )+------------------.oooO--(_)--Oooo.---------------------+| Rick Wang || E-mail: r... 阅读全文
posted @ 2006-12-29 17:23 riky 阅读(909) 评论(0) 推荐(0) 编辑
linux 内核分析之list_head
摘要:本文详细分析了 2.6.x 内核中链表结构的实现,并通过实例对每个链表操作接口进行了详尽的讲解。 一、 链表数据结构简介链表是一种常用的组织有序数据的数据结构,它通过指针将一系列数据节点连接成一条数据链,是线... 阅读全文
posted @ 2006-12-28 17:08 riky 阅读(30210) 评论(5) 推荐(2) 编辑
char p[] 和 char *p
摘要:在函数里char p[] = "hello world" 与 char *p = "Hello world" 造成的效果不一样,为什么?请高人告知! 请看两个程序: (1) char *GetString(void) { char p[] = "Hello world"; return p; } void main() { char *str = NULL; str = GetString(); ... 阅读全文
posted @ 2006-12-28 15:48 riky 阅读(2480) 评论(1) 推荐(0) 编辑
not human being~~~
摘要:以下所说 也许不是什么新东西,只是今天我才知道 typedef struct { int min; char ch; char ch1; int min1;}str;printf("%x", (unsigned long) ( &( (struct str *)0->;min ) ) )printf("%x", (unsigned long) ( &( (struct ... 阅读全文
posted @ 2006-12-28 15:43 riky 阅读(337) 评论(1) 推荐(0) 编辑
linux 内存相关~~~~集~~
摘要:源程序如下#include /*C99标准*/int main(void){ int zippo[4][2] = { {2,4},{6,8},{1,3},{5,7} } printf("zippo=%p,zippo+1=%p\n", zippo, zippo+1); printf("*(*(zippo+2)+1)=%d\n",*(*(zippo+2)+1));... 阅读全文
posted @ 2006-12-28 10:47 riky 阅读(628) 评论(4) 推荐(0) 编辑
LEX---Start conditions
摘要:Start conditions flex provides a mechanism for conditionally activating rules. Any rule whose pattern is prefixed with "" will only be active when the scanner is in the start condition named "sc". For... 阅读全文
posted @ 2006-12-26 18:05 riky 阅读(711) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 下一页
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

乐哈哈旅游视频网:
点击右上角即可分享
微信分享提示