摘要: 基于TF-IDF的关键词提取 TF-词频 IDF-反文档 阅读全文
posted @ 2020-01-11 21:55 杨海星 阅读(220) 评论(0) 推荐(0) 编辑
摘要: 红黑树 平衡二叉树 定义:二叉树中任意一个节点的左右子树的高度相差不能大于 1。 完全二叉树、满二叉树其实都是平衡二叉树,非完全二叉树也有可能是平衡二叉树。 平衡二叉查找树 任何节点的左右子树高度相差不超过 1,是一种高度平衡的二叉查找树。 符合二叉查找树的特点:左子节点小于父节点,右子节点大于父节 阅读全文
posted @ 2020-01-11 20:33 杨海星 阅读(199) 评论(0) 推荐(0) 编辑
摘要: AC自动机 一样的不太好理解,有时间再啃 敏感词过滤 单模式字符串匹配算法:(BF,RK,BM,KMP)每次取敏感词字典中一个敏感语做为模式串在用户输入的主串中进行匹配,效率较低 多模式字符串匹配算法:(Trie树,AC自动机) Trie树:把用户输入的内容作为主串,从第一个字符(假设是字符 C)开 阅读全文
posted @ 2020-01-11 18:21 杨海星 阅读(197) 评论(0) 推荐(0) 编辑
摘要: KMP算法 比较难理解,准备有时间专门啃一下。 核心思想与BM算法一样:假设主串是 a,模式串是 b。在模式串与主串匹配的过程中,当遇到不可匹配的字符的时候,我们希望找到一些规律,可以将模式串往后多滑动几位,跳过那些肯定不会匹配的情况。 不同的是:在模式串和主串匹配的过程中,把不能匹配的那个字符仍然 阅读全文
posted @ 2020-01-11 17:59 杨海星 阅读(155) 评论(0) 推荐(0) 编辑