2017年5月2日

摘要: 可以使用的方法: 1.正则表达式 正则表达式可以准确的抽取某一固定格式的页面,但面对形形色色的HTML,使用规则处理难免捉襟见肘。 2.joyhtml JoyHTML的目的是解析HTML文本当中的链接和正文,利用超链接密度法为主要判断依据的标记窗算法,采用DOM树解析模式。 3.boilerpipe 阅读全文
posted @ 2017-05-02 09:45 cuiyubo 阅读(678) 评论(0) 推荐(0) 编辑

导航