06 2022 档案

摘要:在处理大规模数据时,数据无法全部载入内存,我们通常用两个选项 使用tfrecords 使用 tf.data.Dataset.from_generator() tfrecords的并行化使用前文已经有过介绍,这里不再赘述。如果我们不想生成tfrecord中间文件,那么生成器就是你所需要的。 本文主要记 阅读全文
posted @ 2022-06-11 12:20 鱼与鱼 阅读(705) 评论(0) 推荐(1) 编辑
摘要:写在前面: LightGBM 用了很久了,但是一直没有对其进行总结,本文从 LightGBM 的使用、原理及参数调优三个方面进行简要梳理。 开箱即用 quickstart 使用 LightGBM 官方接口,核心步骤 定义参数 构造数据 train predict # 1.定义参数 config = 阅读全文
posted @ 2022-06-03 18:23 鱼与鱼 阅读(2542) 评论(0) 推荐(0) 编辑
摘要:概览 Topic是Kafka数据写入操作的基本单元,可以指定副本 一个Topic包含一个或多个Partition,建Topic的时候可以手动指定Partition个数,个数与服务器个数相当 每条消息属于且仅属于一个Topic Producer发布数据时,必须指定将该消息发布到哪个Topic Cons 阅读全文
posted @ 2022-06-03 18:06 鱼与鱼 阅读(22) 评论(0) 推荐(0) 编辑
摘要:写点什么…… 阅读全文
posted @ 2022-06-03 16:45 鱼与鱼 阅读(8) 评论(0) 推荐(0) 编辑
摘要:前不久看到了几个二进制文件可视化的项目,做了一些了解,通过可视化可以看出加壳或者加密文件,在纹理结构上和正常文件还是有较大区别。 而且可视化对文件格式不敏感,任何文件都可以查看其可视化结果。 二进制文件可视化 可视化数据源可分为以下两类: 二进制文件可视化 二进制熵可视化 对绘图的方式有几种方法: 阅读全文
posted @ 2022-06-02 14:34 鱼与鱼 阅读(1250) 评论(0) 推荐(0) 编辑