magika google 开源的基于深度学习的文件类型检测框架
magika google 开源的基于深度学习的文件类型检测框架,基于了一个keras 模型,包含了1MB的参数,而且需要的资源比较少
不以来GPU
包含的特性
- 支持python cli 以及nodejs 使用(基于tfjs)
- 训练超过了25M的文件数,超过100中类型
- 支持递归检测
- 支持3中类型的预测模型高,中,最优模式
说明
magika 目前已经在google 内部使用了,包含drive,gmail 主要是对于文件内容安全的处理
参考资料
https://github.com/google/magika
https://google.github.io/magika/
https://opensource.googleblog.com/2024/02/magika-ai-powered-fast-and-efficient-file-type-identification.html