2020 年 12月 3 日随笔档案 - zzzzy09

公告

2020年12月3日

摘要：关于爬虫的案例和方法，我们已讲过许多。不过在以往的文章中，大多是关注在如何把网页上的内容抓取下来。今天我们来分享下，当你已经把内容爬下来之后，如何提取出其中你需要的具体信息。 HTML 文档本身是结构化的文本，有一定的规则，通过它的结构可以简化信息提取。于是，就有了lxml、pyquery、Beau 阅读全文

posted @ 2020-12-03 16:01 zzzzy09 阅读(151) 评论(0) 推荐(0) 编辑