阿里云恶意软件检测比赛-第二周-搭建基础网络(欢迎交流分享)
摘要:
基础知识: 1.词袋模型 即one-hot。 假设我们总共有N个词,然后对词进行索引编码并构造一个N维零向量,如果这个文本中的某些词出现,就在该词索引值位置标记为1,表示这个文本包含这个词。 缺点:任意两个词之间都是孤立的。 2.Tokenizer类 fit_on_text(texts) 使用一系列 阅读全文
posted @ 2019-10-20 23:15 HYWZ 阅读(551) 评论(0) 推荐(0) 编辑