2017 年 5月 2 日随笔档案 - cuiyubo

2017年5月2日

摘要：可以使用的方法： 1.正则表达式正则表达式可以准确的抽取某一固定格式的页面，但面对形形色色的HTML，使用规则处理难免捉襟见肘。 2.joyhtml JoyHTML的目的是解析HTML文本当中的链接和正文，利用超链接密度法为主要判断依据的标记窗算法，采用DOM树解析模式。 3.boilerpipe 阅读全文

posted @ 2017-05-02 09:45 cuiyubo 阅读(678) 评论(0) 推荐(0) 编辑

cuiyubo

导航

公告