垂直搜索引擎蜘蛛

       本以为蜘蛛很简单,根据一个url,抓取到html内容,然后根据正则匹配数据入库.却发现,越看资料越复杂,蜘蛛应该根据抓取相似页面自动生成抓取模板,而且蜘蛛还要支持cookies和会自登录等多种协议.
        页面解析方面,也不是简单的获得标题和内容那么简单,还要做dom解析,js解析,模拟浏览器的可视化抓取等等.
        先从页面数据的抽取这方面入手研究吧.

posted on 2008-05-29 10:31 隨風.NET 阅读(516) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

最新评论

1. Re:使用Python去掉试卷上的蓝色和红色笔记
先用扫描全能王拍照,然后需要锐化增强处理,再使用Python
--隨風.NET
2. Re:skywalking 部署到iis上配置
请问做过skywalking监控asp.net项目部署到iis服务器吗
--尚文公
3. Re:Windows 10 自建Anki 私有云服务器

cd /home/jason/ankiserver
 python3 ankisyncctl.py passwd leishen

--隨風.NET
4. Re:解决Cisco AnyConnect VPN客户端的DNS优先级问题
最新发现:断网,然后让cisco自动重连即可
--隨風.NET
5. Re:避免临时表插入重复数据
Alter Database db Set Read_Committed_Snapshot ON
--隨風.NET

隨风.NET

垂直搜索引擎蜘蛛

导航

公告

统计

搜索

常用链接

最新随笔

我的标签

积分与排名

随笔分类 (66)

随笔档案 (308)

阅读排行榜

评论排行榜

推荐排行榜

最新评论