摘要:
搜索引擎就是运用机器学习、数据挖掘知识的典型啊。简单的来说,搜索引擎就是存储所有的可以访问的静态网页并将它们存储起来,当你查询的时候将那些跟你的要求相关的网页送给你。搜索引擎也经历了一段时间,期间起起伏伏、波澜壮阔,从雅虎的目录式的搜索引擎,再到谷歌的崛起,被墙,然后百度开始NB起来,到现在国内还是有很多家企业进入搜索领域(搜狗、搜搜、360等等)。 从前面的介绍可以看出,建立一个搜索引擎首先需要做的是获取所有的可以访问的网页,这一过程称之为爬取(crawling),相应的程序称之为爬虫(crawler)。然后需要将这些网页存储起来。因为在使用搜索引擎时,我们提供给搜索引擎的是好几个“词... 阅读全文