众里寻他千百度，蓦然回首，那人却在灯火阑珊处

有时候，经常搜索一些关于搜索引擎的技术文章，时有文章提到，基于网页库，基于模板的spider的说法，这些概念对于没有在专业搜索引擎公司工作经历的我来说，实在不好理解，联系到好久以前看到腾讯招聘“搜索引擎编辑”的要求，有两条比较有趣：

工作职责：
    1,制作定向采集模版
    2 ......... n
工作要求：
    1,熟悉计算机操作，熟练掌握OFFICE软件，能够很快学会xml,html基本语法
    2,其他均和计算机/编程不相关

从这个招聘上看，腾讯的定向采集模版应该是很容易制作的。所以一直很想知道这个模版是如何制作的，后台如何和模板结合完成数据采集任务的。可惜，到目前也不得而知，看来自己摸索吧。

前端时间，为了做一个网站，需要开发一个CMS，而CMS最常见，最简单的应该就是“网页模板”了，CMS的模板处理原理本质是“数据替换”。反过来想，定向信息采集的“采集模板”的处理本质是“数据抽取”，以此思路展开，我自己设计了第一个“采集模板”：
<html>
   <title>{spider:文章标题}</title>
   <body>
      <div>发布日期：{spider:发布日期} 作者：{spider:文章作者}</div>
     <div>
        {spider:文章内容}
     </div>
   </body>
</html>
感觉上就像CMS的模板，里面由{}包含的项就是标签，对于CMS而言，是替换标签，而对于数据采集来说，则是抽取标签。
当然了，对于复杂的采集任务，简单的抽取标签是不够的，还需要一套“数据抽取模板语言”，就好比如CMS的模板语言一样。

经过初步的实验，通过html parser和正则表达式可以实现简单网页的定向信息抽取的任务。

在摸索的过程中，对于老早就想实现的“网页局部切割监视”技术，竟然也有了豁然开朗的感觉。

所以就有了“众里寻他千百度，蓦然回首，那人却在灯火阑珊处”的感觉。
虽然不是什么了不起的东西，甚至对于大家来说，是小儿科了。不过在技术探索的过程，发现新东西，总是令人兴奋的!

快过年了 , 祝贺所有的兄弟姐妹，也祝贺自己，新年快乐！

posted @ 2008-02-04 23:31 kwklover 阅读(2781) 评论(1) 收藏举报

刷新页面返回顶部

众里寻他千百度，蓦然回首，那人却在灯火阑珊处

公告