会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
沙漠之鹰
开发笔记,理解和思考
博客园
首页
新随笔
联系
管理
2016年3月25日
etlpy: 并行爬虫和数据清洗工具(开源)
摘要: etlpy是python编写的网页数据抓取和清洗工具,核心文件etl.py不超过500行,具备如下特点 爬虫和清洗逻辑基于xml定义,不需手工编写 基于python生成器,流式处理,对内存无要求 内置线程池,支持串行和并行处理 内置正则解析,html转义,json转换等数据清洗功能,直接输出可用文件
阅读全文
posted @ 2016-03-25 18:34 FerventDesert
阅读(30916)
评论(5)
推荐(15)
编辑
公告