众里寻他千百度,蓦然回首,那人却在灯火阑珊处
有时候 ,经常搜索一些关于搜索引擎的技术文章,时有文章提到,基于网页库,基于模板的spider的说法,这些概念对于没有在专业搜索引擎公司工作经历的我来说,实在不好理解,联系到好久以前看到腾讯招聘“搜索引擎编辑”的要求,有两条比较有趣:
工作职责:
1,制作定向采集模版
2 ......... n
工作要求:
1,熟悉计算机操作,熟练掌握OFFICE软件,能够很快学会xml,html基本语法
2,其他均和计算机/编程不相关
从这个招聘上看,腾讯的定向采集模版应该是很容易制作的。所以一直很想知道这个模版是如何制作的,后台如何和模板结合完成数据采集任务的。可惜,到目前也不得而知,看来自己摸索吧。
前端时间,为了做一个网站,需要开发一个CMS,而CMS最常见,最简单的应该就是“网页模板”了,CMS的模板处理原理本质是“数据替换”。反过来想,定向信息采集的“采集模板”的处理本质是“数据抽取”,以此思路展开,我自己设计了第一个“采集模板”:
<html>
<title>{spider:文章标题}</title>
<body>
<div>发布日期:{spider:发布日期} 作者:{spider:文章作者}</div>
<div>
{spider:文章内容}
</div>
</body>
</html>
感觉上就像CMS的模板,里面由{}包含的项就是标签,对于CMS而言,是替换标签,而对于数据采集来说,则是抽取标签。
当然了,对于复杂的采集任务,简单的抽取标签是不够的,还需要一套“数据抽取模板语言”,就好比如CMS的模板语言一样。
经过初步的实验,通过html parser和正则表达式可以实现简单网页的定向信息抽取的任务。
在摸索的过程中,对于老早就想实现的“网页局部切割监视”技术,竟然也有了豁然开朗的感觉。
所以就有了“众里寻他千百度,蓦然回首,那人却在灯火阑珊处”的感觉。
虽然不是什么了不起的东西,甚至对于大家来说,是小儿科了。不过在技术探索的过程,发现新东西,总是令人兴奋的!
快过年了 , 祝贺所有的兄弟姐妹 ,也祝贺自己,新年快乐!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· 展开说说关于C#中ORM框架的用法!
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?