easy-batch job readers
easy-batch 提供了一些已经实现好的reader,对于从数据源读取records ,我们只需要注册实现好的RecordReader 接口
(当然可以自己实现)
readers
- 代码参考
Job job = new JobBuilder()
.reader(new MyRecordReader(myDataSource))
.build();
- 支持的源
flat files
xml, json && yaml
MS Excel
in-memory 字符串
databases
JMS queues
BlockingQueue and Iterable objects
Java 8 streams
标准输入
- 参加源于模块
来自官方的表格
数据读取失败处理
easy-batch提供了一些策略,我们可以方便的处理数据源读取的异常
- 参考代码
Job job = new JobBuilder()
.reader(new RetryableRecordReader(unreliableDataSourceReader, new RetryPolicy(5, 1, SECONDS)))
.build();
性能说明
JdbcRecordReader
对于数据的处理是按块的,对于大量数据的处理,可以设置MaxRows
以及fetchSize
参数,避免大量数据加载内存JpaRecordReader
对于数据的加载通过JPQL 查询到java.util.List
对象,所以对于大数据集的需要有耐心,同时可以通过maxResults 指定
最大数据加载的rowsHibernateRecordReader
使用org.hibernate.ScrollableResults
处理数据,可以通过fetchSize以及 maxResult 指定获取的数据大小以及最大
行数
多文件数据加载
我们可以通过MultiFileRecordReader
加载多文件数据,但是数据格式必须是一样的,当然也提供了json,yaml,xml,flatfile 的多文件
加载模式
JdbcRecordReader 警告
JdbcRecordReader生产类型的记录JdbcRecord。JdbcRecord有一个java.sql.ResultSetas负载。在有一个主
作业从关系数据库中读取数据并将其分派给worker的情况下,当worker仍在处理这些记录时,该主工作可能已经完成了
读取数据源并将所有记录分派给worker队列的工作。因此,主作业将关闭数据库连接,并且分派的JDBC记录不再可用,
因为它们的有效负载取决于已由主作业关闭的连接!
解决此问题的方法是使主作业将JDBC记录映射到域对象,然后将这些对象安全地分派给worker,可以通过fork / join模式解决
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
2019-04-19 转载一篇阿里云Terraform 开发指南
2019-04-19 zabbix 4.2 支持 timescledb 了
2018-04-19 使用distillery 实现版本的动态升级&& 动态降级
2018-04-19 使用distillery 构建专业的 phoenix 项目软件包
2018-04-19 mix deps HEX_HTTP_CONCURRENCY=1 HEX_HTTP_TIMEOUT=120 timeout
2018-04-19 elixir jenkins 集成构建方式配置
2018-04-19 phoenix 使用activerecord模式框架ecto 访问数据库