数学中余弦定理在搜索中的分类应用——新闻的分类
文章顺序排在《地图和本地搜索的最基本技术》之后
1.特征向量的提取
i.思想:
想让计算机来对新闻进行分类,先要将新闻变为一组可计算的数字
ii.实现:
a.去掉新闻中的助词(的、地、得),以及虚词(之乎者也)
b.然后将剩下的词的IF-IDF,依据词汇表的顺序,组成一个特征向量;向量中的每一个维度代表这个词对这篇新闻主题的贡献
c.用两个向量的夹角来衡量两篇新闻的是否“接近”

可以看出cos值在[0,1]间,接近1,则两篇新闻属于同一类
2.整体的实现
i.如果已知了各类新闻类别的特征向量,对于一篇新文章的分类,可以简单的计算就能知道其分类
ii.自动计算新闻类别的特征向量
a.计算所有新闻两两之间的相似性,把相似性大于一个阀值的新闻合并成一个小类(subclass),这样N篇文章就形成N1个小类,且N1<N;
b.再把小类中所有的新闻作为一个整体,计算整体的特征向量,进而计算其余弦的相似性,然后合并为大一点的类,如有N2个,有N2<N1.
c.当类越来越大时,其中的新闻的相似性就越来越小了,此时就要停止上述迭代的过程了,至此,自动分类完成
d.算法论文:Radu Florian and Davie Yarowsky, Dynamic nonlocal language modeling via hierarchical topic-based adaptation, ACL 1999
3.大规模自动分类时,计算余弦的技巧:
i.将分母即每个新闻的|a|都缓存起来,每次的跌代量可以节省2/3
ii.分子的计算只需要考虑一个非零元素个数较小的向量中的非零维度,与其相对应位置上另一个向量此维度的乘积即可
iii.删除虚词、stop词、连词、副词、介词
4.位置加权的作用:
标题中的词、文章靠头、结尾的词、段落的第一个句子比其他部分的词更加重要,所以需要对这些地方进行额外的加成,来提高算法的准确性
分类:
数学之美
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· 展开说说关于C#中ORM框架的用法!
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?