02 2023 档案

摘要:基于FLink实现的实时安全检测(一段时间内连续登录失败20次后,下一次登录成功场景)研发背景 公司安全部目前针对内部系统的网络访问日志的安全审计,大部分都是T+1时效,每日当天,启动Python编写的定时任务,完成昨日的日志审计和检测,定时任务运行完成后,统一进行企业微信告警推送。这种方案在目前的网络环境和人员规模下,呈现两个痛点,一是面对日益频繁的网络攻击、钓鱼链接,T+1的定时 阅读全文
posted @ 2023-02-23 14:00 ^王晓明^ 阅读(852) 评论(0) 推荐(1)
摘要:一、研发背景 DataX官方开源的版本支持HDFS文件的读写,但是截止目前,并没有支持Parquet文件的读写,得益于DataX出色的数据同步性能,去年公司的项目大部分采用了DataX作为数据同步工具,但是从CDH集群同步Parquet或者将其他数据源的数据以Parquet格式写入HDFS,这两个常 阅读全文
posted @ 2023-02-13 10:24 ^王晓明^ 阅读(2642) 评论(14) 推荐(0)
摘要:DataX二次开发——新增HiveReader插件一、研发背景 DataX官方开源的版本支持HDFS文件的读写,并没有支持基于JDBC的Hive数据读写,很多时候一些数据同步不太方便,比如在读取Hive之前先执行一些sql、读取一些Hive的视图数据、或者在数据同步时执行一段固定的SQL,将SQL执行结果写入下游等各种场景,实际上还是需要Hive插 阅读全文
posted @ 2023-02-07 11:26 ^王晓明^ 阅读(1878) 评论(3) 推荐(1)
摘要:DataX插件二次开发指南##一、 DataX为什么要使用插件机制? 从设计之初,DataX就把异构数据源同步作为自身的使命,为了应对不同数据源的差异、同时提供一致的同步原语和扩展能力,DataX自然而然地采用了框架 + 插件 的模式: 插件只需关心数据的读取或者写入本身。 而同步的共性问题,比如:类型转换、性能、统计,则交 阅读全文
posted @ 2023-02-07 10:12 ^王晓明^ 阅读(1538) 评论(0) 推荐(0)
摘要:数据湖Hudi与对象存储Minio及Hive\Spark\Flink的集成本文主要记录对象存储组件Minio、数据湖组件Hudi及查询引擎Hive\Spark之间的兼容性配置及测试情况,Spark及Hive无需多言,这里简单介绍下Minio及Hudi。 MinIO 是在 GNU Affero 通用公共许可证 v3.0 下发布的高性能对象存储。 它是与 Amazon S3 阅读全文
posted @ 2023-02-06 10:58 ^王晓明^ 阅读(3555) 评论(0) 推荐(0)