摘要: 一、Tokenizer和RegexTokenizer 标记化是获取文本(例如句子)并将其分解为单个术语(通常是单词)的过程。 一个简单的 Tokenizer 类提供了这个功能。 下面的示例显示了如何将句子拆分为单词序列。 RegexTokenizer 允许基于正则表达式 (regex) 匹配的更高级 阅读全文
posted @ 2022-03-05 02:28 干了这瓶老干妈 阅读(337) 评论(0) 推荐(0) 编辑
摘要: 一、TF-IDF (HashingTF and IDF) “词频-逆向文件频率”(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。在Spark ML库中,TF-IDF被分成两部分:TF (+hashing) 和 IDF。 TF: Hashing 阅读全文
posted @ 2022-03-05 01:57 干了这瓶老干妈 阅读(533) 评论(0) 推荐(0) 编辑
Live2D