2018 年 6月 1 日随笔档案 - 水能载舟亦能载艇

2018年6月1日

摘要：采集数据比较头痛的一个问题就是数据的保存了: 对于格式化的数据还好说, 可以直接存储到传统的关系型数据库当中, 可是对于一些非格式化的数据我们只能进行人工干预, 将其转化为格式化数据再进行存储. 最近的工作中碰到一个比较棘手的问题: 采集的数据的格式不一样, 且不同的网页的内容出现的也比较随意, 当阅读全文

posted @ 2018-06-01 16:27 水能载舟亦能载艇阅读(788) 评论(0) 推荐(0) 编辑

正则表达式

摘要：出于工作的需要(业余采集某信公众号), 需要将某信的类似扩展阅读拿掉在采集其余的内容的时候我一般采取的是使用 xPath 的方式进行抽取数据. 尝试之后发现不同的公众号之间存在相互冲突的地方, 故而此法不通看过代码之后, 设计的初衷一共有 3 中方式进行抽取: xPath, CSS, Regex 阅读全文

posted @ 2018-06-01 15:36 水能载舟亦能载艇阅读(117) 评论(0) 推荐(0) 编辑

公告