会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
理舞
博客园
首页
新随笔
联系
订阅
管理
2018年2月13日
网络爬虫
摘要: 通用爬虫框架图 互联网上网页划分
阅读全文
posted @ 2018-02-13 15:51 理舞
阅读(144)
评论(0)
推荐(0)
编辑
搜索引擎架构
摘要: 搜索引擎获取并存储海量的网页相关信息,不需要实时计算,可看做搜索引擎的后台计算系统。搜索引擎的最重要目的是为用户提供准确全面的搜索结果。 当搜索引擎接收到用户的查询词后,首先需要对查询词进行分析,希望能够结合查询词和用户信息来正确推导用户的真正搜索结果,如果能够在缓存系统找到满足用户需求的信息,则可
阅读全文
posted @ 2018-02-13 15:26 理舞
阅读(364)
评论(0)
推荐(0)
编辑