06 2022 档案
摘要:在处理大规模数据时,数据无法全部载入内存,我们通常用两个选项 使用tfrecords 使用 tf.data.Dataset.from_generator() tfrecords的并行化使用前文已经有过介绍,这里不再赘述。如果我们不想生成tfrecord中间文件,那么生成器就是你所需要的。 本文主要记
阅读全文
摘要:写在前面: LightGBM 用了很久了,但是一直没有对其进行总结,本文从 LightGBM 的使用、原理及参数调优三个方面进行简要梳理。 开箱即用 quickstart 使用 LightGBM 官方接口,核心步骤 定义参数 构造数据 train predict # 1.定义参数 config =
阅读全文
摘要:概览 Topic是Kafka数据写入操作的基本单元,可以指定副本 一个Topic包含一个或多个Partition,建Topic的时候可以手动指定Partition个数,个数与服务器个数相当 每条消息属于且仅属于一个Topic Producer发布数据时,必须指定将该消息发布到哪个Topic Cons
阅读全文
摘要:前不久看到了几个二进制文件可视化的项目,做了一些了解,通过可视化可以看出加壳或者加密文件,在纹理结构上和正常文件还是有较大区别。 而且可视化对文件格式不敏感,任何文件都可以查看其可视化结果。 二进制文件可视化 可视化数据源可分为以下两类: 二进制文件可视化 二进制熵可视化 对绘图的方式有几种方法:
阅读全文