web页面列表的内容抽取
刚才一朋友有一个需求,就是抽取web页面列表的内容
例如论坛的帖子列表,他要求通用化的
简单地想了一下,思路如下:
利用HtmlAgilityPack (C#) 把页面的html变成DOM树以方便操作
遍历节点,计算节点之间的相似度
如果节点的相似度比较高的就可以认为是相似的节点
而且通过DOM树可以知道节点是否同级
如果同级或者层次相同的话
那么基本上就是列表里面的节点了
简单思路,欢迎讨论
例如论坛的帖子列表,他要求通用化的
简单地想了一下,思路如下:
利用HtmlAgilityPack (C#) 把页面的html变成DOM树以方便操作
遍历节点,计算节点之间的相似度
如果节点的相似度比较高的就可以认为是相似的节点
而且通过DOM树可以知道节点是否同级
如果同级或者层次相同的话
那么基本上就是列表里面的节点了
简单思路,欢迎讨论