随笔分类 - 深度学习
摘要:生成对抗网络自2014年提出以来,一直是人工智能领域的研究热点,在语音、文本、图像、网络安全等诸多领域都有广泛应用。本文首先阐述了原始生成对抗网络的结构和原理,梳理了一些基于原始生成对抗网络的衍生结构,之后分析生成对抗网络训练中单阶段训练和数据增强问题,最后介绍了生成对抗网络的典型应用,以及对未来生成对抗网络的研究展望。
阅读全文
摘要:【特征】字节序列 Windows上的恶意软件,即恶意的二进制程序,本质上都可以看作是一串字节流。对此也可以用二进制编程写程序,但确实反人类。如下图,是用十六进制编辑器打开可执行程序的结果,显示为16进制形式,二进制难以直接阅读: 传统的恶意软件检测方法: 基于签名的方法: Traditional a
阅读全文
摘要:【特征】图的故事 19-Malware-Attributed CFG To strike a balance between generality and performance: control flow graphs (CFGs) deep graph convolutional neural
阅读全文
摘要:【特征】操作码序列 通常对PE格式文件(.exe文件等),用IDA Pro反汇编得到对应的asm(包含汇编代码)文件。从asm文件中可以提取操作码、函数调用等信息作为特征训练机器学习和深度学习模型。 加壳(对程序的压缩、加密等)后的程序对应的汇编代码中,指令语句会比较少,大部分是数据定义语句。 一个
阅读全文
摘要:Embedding Onehot 对类别数据 one-hot: 类别如果用整数编码存在大小关系,计算损失和距离会有问题。 对特征 one-hot: 常见于对词的处理,将词映射到一个欧式空间,便于计算距离等。 one-hot 向量的维度等同于词表的维度 存在的问题 one-hot 的向量无法体现词之间
阅读全文
摘要:keras-tokenization keras中的文本标记实用类,用于分词: 将文本转换为整数序列(每个数是词在词表中的索引)。 将文本处理为向量。 例1 keras.preprocessing.text.Tokenizer(num_words=None, filters='!"#$%&()*+,
阅读全文