全文索引:部分词能查到,部分词查不到的bug
全文索引的概念:将存储在数据库中的整本书或整篇文章中的任意内容信息查找出来的技术。它可以根据需要获取全文中有关章,节,段,句,词等信息,也可以进行各种统计和分析。
1、在edgelabel木马的name属性上建立search索引;
2、插入木马数据,name为“木马-远控-Trojan.Win32.FakeLPK.7cfa上线包”;
3、name":"木马-远控-Trojan.Win32.FakeLPK.7cfa上线包",搜索木马 远控 Trojan、上线包 这4个可以搜到;Win32 FakeLPK 7cfa 这3个搜不到
经过判断是配置文件中选择的默认分词器造成的:有的支持中午分词好,有的支持英文分词好。
word MaximumMatching:[木马, 远, 控, trojan, ., win32, fakelpk, 7cfa, 上线, 包]
word MaximumMatching:[木马, 远, 控, trojan, ., win32, fakelpk, 7cfa, 上线, 包]
jieba SEARCH:[木马, -, 远控, trojan, ., win32, fakelpk, 7cfa, 上线, 包]
jieba INDEX:[木马, -, 远控, trojan, ., win32, fakelpk, 7cfa, 上线, 包] -------这个目前是比较符合实际的
smartcn:[木马, 远, 控, trojan, win, 32, fakelpk, 7, cfa, 上, 线, 包]
mmseg4j Simple:[木马, 远, 控, trojan, win32, fakelpk, 7cfa, 上, 线, 包]
mmseg4j Complex:[木马, 远, 控, trojan, win32, fakelpk, 7cfa, 上, 线, 包]
jcseg Simple:[木马, -, 远, 控, trojan.win32.fakelpk.7cfa, trojan, win, 32, fakelpk, 7, cfa, 上线, 包]
jcseg Complex:[木马, -, 远, 控, trojan.win32.fakelpk.7cfa, trojan, win, 32, fakelpk, 7, cfa, 上线, 包]
hanlp standard:[木马, -, 远, 控, -Trojan, ., Win, 32, FakeLPK, 7, cfa, 上, 线, 包]
hanlp nlp:[木马, -, 远控, -Trojan, ., Win, 32, FakeLPK, 7, cfa, 上, 线, 包]
ansj BaseAnalysis:[木马, -, 远, 控, trojan, ., win, 32, fakelpk, 7, cfa, 上线, 包]
ansj IndexAnalysis:[木马, -, 远, 控, trojan, ., win, 32, fakelpk, 7, cfa, 上线, 包]
ik smart:[木马, 远, 控, trojan.win32.fakelpk.7cfa, 上线, 包] ------------默认的是这个
ik max_word:[木马, 远, 控, trojan.win32.fakelpk.7cfa, trojan, win, 32, fakelpk, 7, cfa, 上线, 包]