会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
qnilevel
博客园
首页
新随笔
联系
管理
订阅
2014年8月28日
搜索引擎项目
摘要: 对从网络上抓取到的网页进行处理:建立网络库,分词,去重,if-tdf计算权重,归一化,然后根据查询词将文本相似度从高到低的依次返回给客户第一阶段:python网络爬虫抓取网页,并存盘第二阶段:对磁盘上的网页文件建立网页库,将全部网页写入网页库,并建立相应网页的偏移量索引文件(1 23 100)-->...
阅读全文
posted @ 2014-08-28 14:32 rail
阅读(429)
评论(0)
推荐(0)
编辑
公告