python库--flashtext--大规模数据清洗利器
flashtext.keyword (flashtext) | |||
类/方法 | 返回值 | 参数 | 说明 |
.KeywordProcessor() | 对象kp | case_sensitive=False | 是否区分大小写 |
添加关键词 | |||
kp.add_keyword() | keyword | 检索的词 | |
clean_name=None | 显示或要被替换为的词(默认keywords本身) | ||
kp.add_keywords_from_dict() | keyword_dict | key: 类似于clean_name | |
value: 类似于[keyword] | |||
kp.add_keywords_from_list() | keyword_list | 类似于[keyword] | |
删除关键词 | |||
kp.remove_keywords() | keywoed | 要删除的keyword | |
kp.remove_..._from_dict() | keyword_dict | 参考添加 | |
kp.remove_..._from_list() | keyword_list | 参考添加 | |
设置单词边界 | |||
kp.add_non_word_boundary() | character | 添加非单词边界的字符, 比如添加'/', 那么此字符将不会被识别为单词边界 | |
关键字提取 | |||
kp.extract_keywords() | list | 关键字提取 | |
sentence | 要被检索的字符串, 匹配到则返回clean_name | ||
span_info=False | 是否返回关键字位置信息 | ||
关键字替换 | |||
kp.replace_keywords() | str | 关键字替换 | |
sentence | 要被替换的字符串, 把keywords替换为clean_name | ||