摘要: 接上一篇文章,我继续对《数学之美》进行总结。由于篇幅原因,很多具体的算法没有写,只给出了外链。如有需要请自行搜索网页相似性的度量问题描述:求出任意两个网页之间的相似程度解决方法:TF-IDF方法(term Frequency-Inverse Document Frequency)步骤:提取出网页的关键词,然后根据网页的长度对关键词进行归一化。两个网站间的相似性 = ∑(关键词 * 词频 * 权重)关键词:如“原子能”,“的”词频:在进行对比的两个网页中,关键词出现的频率。权重:关键词在所有网页中出现的概率越低,权重越大。很显然,“原子能”的权重远远大于“的”的权重。地址识别问题描述:输入一串文 阅读全文
posted @ 2012-09-02 11:04 汉泽的家 阅读(3364) 评论(5) 推荐(3) 编辑