乐哈哈旅游视频网:

随笔 - 186 文章 - 1 评论 - 149 阅读 - 93万

VSM应用一

在向量空间模型中，文本泛指各种机器可读的记录。用D（Document）表示，特征项（Term，用t表示）是指出现在文档D中且能够代表该文档内容的基本语言单位，主要是由词或者短语构成，文本可以用特征项集表示为D(T1，T2，…，Tn)，其中Tk是特征项，1<=k<=N。例如一篇文档中有a、b、c、d四个特征项，那么这篇文档就可以表示为D(a，b，c，d)。对含有n个特征项的文本而言，通常会给每个特征项赋予一定的权重表示其重要程度。即D＝D(T1，W1；T2，W2；…，Tn，Wn)，简记为D＝D(W1，W2，…，Wn)，我们把它叫做文本D的向量表示。其中Wk是Tk的权重，1<=k<=N。在上面那个例子中，假设a、b、c、d的权重分别为30，20，20，10，那么该文本的向量表示为D(30，20，20，10)。在向量空间模型中，两个文本D1和D2之间的内容相关度Sim(D1，D2)常用向量之间夹角的余弦值表示，公式为：

其中，W1k、W2k分别表示文本D1和D2第K个特征项的权值，1<=k<=N。
在自动归类中，我们可以利用类似的方法来计算待归类文档和某类目的相关度。例如文本D1的特征项为a，b，c，d，权值分别为30，20，20，10，类目C1的特征项为a，c，d，e，权值分别为40，30，20，10，则D1的向量表示为D1(30,20,20,10,0),C1的向量表示为C1（40，0，30，20，10），则根据上式计算出来的文本D1与类目C1相关度是0.86

那个相关度0.86是怎么算出来的？

是这样的，抛开你的前面的赘述

在数学当中，n维向量是 V{v1, v2, v3, ..., vn}
他的模： |v| = sqrt ( v1*v1 + v2*v2 + ... + vn*vn )
两个向量的点击 m*n = n1*m1 + n2*m2 + ...... + nn*mn
相似度＝ (m*n) /(|m|*|n|)
物理意义就是两个向量的空间夹角的余弦数值
对于你的例子
d1*c1 = 30*40 + 20*0 + 20*30 + 10*20 + 0*10 = 2000
|d1| = sqrt(30*30 +20*20 + 20*20 + 10*10 + 0*0) = sqrt(1800)
|c1| = sqrt(40*40 + 0*0 + 30*30 + 20*20 + 10*10) = sqrt(3000)
相似度 = d1*c1/(|d1|*|c1|)= 2000/sqrt(1800*3000)= 0.86066

posted on 2007-01-10 16:18 riky 阅读(391) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· AI与.NET技术实操系列：向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列：如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探

阅读排行：
· 震惊！C++程序真的从main开始吗？99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码？零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾（3.3-3.9）
· winform 绘制太阳，地球，月球运作规律

昵称： riky
园龄： 18年6个月
粉丝： 94
关注： 0

<

2007年1月

>

日

一

二

三

四

五

六

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

最新随笔

随笔分类 (144)

随笔档案 (186)

相册 (2)

my faverate(2)

my faverate

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:UML类图关系大全
UML软件设计与建模快乐之旅（精讲版）->
--IT技术老兵
2. Re:UML类图关系大全
谢谢您！
--qqqyyf
3. Re:UML类图关系大全
很赞
--liuhmmjj
4. Re:linux 内核分析之list_head
@ 春之晓者你仔细看看哈。...
--itfanr
5. Re:list_head使用介绍
终于把list_entry搞懂了，感谢你了，大神！
--向月车
6. Re:linux 内核分析之list_head
删除操作那一部分LIST_INIT_HEAD() 应改为INIT_LIST_HEAD()源码如下：/** * list_del_init - deletes entry from list and r...
--阿甘愣子
7. Re:UML类图关系大全
真是个好东西,正好要用!
--Akria
8. Re:HTTP数据包头解析---之温故而知新！
mark
--寻风问雨
9. Re:UML类图关系大全
非常好的总结，学习了
--媛小慕
10. Re:UML类图关系大全
很好，通俗易懂
--jet.lin
11. Re:UML类图关系大全
多谢楼主，非常适合入门
--TO_BE_RM
12. Re:UML类图关系大全
写得很不错，再让我温习了一次。
--疯狂的老爹
13. Re:ICTCLAS分词系统简介2
不错，不错。
--规格严格-功夫到家
14. Re:UML类图关系大全
文章看起来很舒服，博主，请问文中蓝色表格使用什么工具画的呢？
--jptiancai
15. Re:char p[] 和 char *p
讲的还不是很清晰哟！~~可以再整理一下~
--wkhuahuo
16. Re:TF-IDF讲义来自GOOGLE黑板报
谢谢楼主
--ebull
17. Re:网页流媒体播放器
有源代码吗？谢谢！ 373550844@qq.com
--程序只是一小部分
18. Re:Unix网络API
很好！
--净坛使者
19. Re:list_head使用介绍
哈哈··精妙的C指针技法啊，学习了！
--luoyo
20. Re:LTE加快发展迎接商用
1：背英语专业名词课件文章理解。2：编程数据处理计算机和语言以及数据库基础。绘图路测软件使用。 3：高数知识逻辑能力分析能力以及动手能力。4：出差吃苦只有男生团队合作能力，抗压能力。通信...
--鹏程
21. Re:TD->LTE
1：背英语专业名词课件文章理解。2：编程数据处理计算机和语言以及数据库基础。绘图路测软件使用。 3：高数知识逻辑能力分析能力以及动手能力。4：出差吃苦只有男生团队合作能力，抗压能力。通信...
--鹏程
22. Re:UML类图关系大全
太感谢了，刚好复习考试用到。楼主辛苦了。
--唇涙
23. Re:UML类图关系大全
很全，受教了，谢谢。请问单向关联实现中：class C3 {public: C4* theC4;};class C4 {};存在C4* theC4这个字段。在C#中不应该会有出现指针吧，那样岂不是实现...
--hedgehog_zsw
24. Re:linux 内核分析之list_head
博主的图有问题，list->next不应该指向结构体的头部，而是应该指向list成员的吧
--春之晓者
25. Re:linux 内核分析之list_head
@ L-joker这样写没错吧。first是list->next....
--morphling.huang
26. Re:UML类图关系大全
写得太好了，这几天也正在学习这方面的知识，感谢楼主分享
--青香蕉
27. Re:网页流媒体播放器
能播放什么类型的文件啊，能把源码给我发一下吗，谢谢，我邮箱地址：853695658@qq.com
--爱拼@才会赢
28. Re:解决“由于应用程序的配置不正确，应用程序未能启动，重新安装应用程序可能会纠正这个问题”
引用李永豪：楼主，我跟本找不到你说的那些msvcm80d.dll……东西啊！那咋办？我的电脑连下载都不行了……求助了，谢谢<br/><br/>我也出现的是同样现像现在，那些方法我也找不到，现在可急了...
--laner2012
29. Re:解决“由于应用程序的配置不正确，应用程序未能启动，重新安装应用程序可能会纠正这个问题”
引用死：方法一：<br/>在类似C:\Program Files\Microsoft Visual Studio 8\VC\redi<br/>st\Debug_NonRedist\x86\Micros...
--laner2012
30. Re:ICTCLAS分词系统简介2
你好，我看了你上边的分词简介后。在那个计算各个词组之间的关联性（耦合度）这边看不懂了。你上线的时候能给我恢复下么？或者是QQ下我好么？我正在研究这分词，希望能和你交流下。。我的扣扣：553806198
--Bill_Jobs
31. Re:linux 内核分析之list_head
在合并操作那里，有点小疑问：static inline void list_splice(struct list_head *list, struct list_head *head)参数list和h...
--L-joker
32. Re:有用的收藏！javascript/c#/asp.net
诶，收藏了很多好东西，真的是放进保险箱了，不怕找不到了，但是很少会去再重新看它，虽然知道温故而知新，诶。。。
--leroylei
33. Re:UML类图关系大全
很易懂，学习了。楼主辛苦
--dragon7l
34. Re:解决“由于应用程序的配置不正确，应用程序未能启动，重新安装应用程序可能会纠正这个问题”
赞
--Carbo
35. Re:UML类图关系大全
谢谢楼主
--Raontie~.1
36. Re:UML类图关系大全
很好，赞
--stonehat
37. Re:not human being~~~
运行会出错啊？？？
--jid_223
38. Re:UML类图关系大全
谢谢,学习了.
--i晕呀
39. Re:TF-IDF讲义来自GOOGLE黑板报
写的太好了，特别是在“原子能的应用”的搜索举例很有代表性，我在没有TF-IDF概念的情况下看了很长时间的Lucene，就是不明白数学计算公式为什么是那个样子的，有一这些概念后，再看真是豁然开朗。
--jince007
40. Re:UML类图关系大全
学习。
--ice_lance

乐哈哈旅游视频网: