摘要: 采集数据比较头痛的一个问题就是数据的保存了: 对于格式化的数据还好说, 可以直接存储到传统的关系型数据库当中, 可是对于一些非格式化的数据我们只能进行人工干预, 将其转化为格式化数据再进行存储. 最近的工作中碰到一个比较棘手的问题: 采集的数据的格式不一样, 且不同的网页的内容出现的也比较随意, 当 阅读全文
posted @ 2018-06-01 16:27 水能载舟亦能载艇 阅读(788) 评论(0) 推荐(0) 编辑
摘要: 出于工作的需要(业余采集某信公众号), 需要将某信的类似扩展阅读拿掉 在采集其余的内容的时候我一般采取的是使用 xPath 的方式进行抽取数据. 尝试之后发现不同的公众号之间存在相互冲突的地方, 故而此法不通 看过代码之后, 设计的初衷一共有 3 中方式进行抽取: xPath, CSS, Regex 阅读全文
posted @ 2018-06-01 15:36 水能载舟亦能载艇 阅读(117) 评论(0) 推荐(0) 编辑