瞬间模糊搜索1000万基本句型的语言算法
http://home.donews.com/donews/forum/26/2006-08/03/612776.html
各位朋友,我提出了一种计算机处理语言的方案,有可能大幅度提高拼音输入、语音输入的水平,我已经在互联网上公开发贴,寻求社会各界的支持,尽快实现产品化,促进中文信息化,也为中国IT业发展出力。现在帖到这里,希望感兴趣的朋友参与这个项目或帮助传播这个信息,谢谢!完整的方案《语言处理技术》见下面网页的附件:
http://www.pkucn.com/viewthread.php?tid=176820&page=1&extra=page%3D3#pid1218072646
汉语是我们母语,汉字承载了我们五千年的文明,但汉语的信息化始终是我们民族现代化道路上的一道坎。目前使用分词算法和N元文法统计模型进行音字转换,准确率不能满足需要,所以我自2004年以来提出“基于参考句型的语言处理方法”,并给出了相关算法:
汉语语句的总数是难以穷尽的,所以一一列举的“基于实例的方法”是不可行的。但许多语句有共同的组成部分,称为“基本句型”,也可以称为“短语”,如:“他毕业五年了”、“他早就毕业了”、“他明年六月毕业”中的“他毕业”。另一方面,一个语句也可以有多个“交叉”“重叠”的“基本句型”,如:“这人的英语说得不流利”中的“这人说英语”、“英语流利”、“不流利”。
如果建立起汉语的基本句型数据库,设拼音输入、语音输入中有拼音串“zheren de yingyu shuo de bu liuli”,在数据库中找出“zheren*shuo*yingyu/这人说英语”,“yingyu*liuli/英语流利”、“bu*liuli /不流利”等作为参考句型。从多个参考句型中,首先选用最长的“这人说英语”,第2步以其中的“英语”去联想“英语流利”,第3步用“流利”去联想“不流利”,则可以处理为“这人de英语说得不流利”,最后用语法、词频等方法作补充,应能大幅度提高准确率。
计算机处理语言给出参考句型,就好比绘图中给出模板:要徒手画一个2厘米的等边三角形是很难的,更别说复杂的图案,如果给出许多的大小不一的各种形状模板,利用这些模板可以组合出千变万化的图案,再复杂的图案也可以画得八九不离十。同样,对于一种语言如果给出数百万乃至数千万的基本句型,利用这些基本句型交叉重叠就可能很好地解决音字转换问题。
由于语言中普遍存在的交叉现象,传统的索引方法不能发现“shixian-weida-lixiang/实现伟大理想”、“lixiang-yijing-shixian/理想已经实现”同数据库“shixian*lixiang/实现理想”有内在联系。当然,对字符串进行“逐字符比较”,也能发现两者之间存在包含关系,但响应速度不能满足需要。
所以我提出质数代换、位标记等方法来提高参考句型的查找速度,对比字符匹配,将速度提高了5-10倍,最高可以提高30倍。用VC独立编程模拟测试表明,一般情况下,在赛扬800的CPU上0.1-0.5秒能从400万条记录中查找出参考句型。据此推算,在高档微机0.1-0.5秒能为一个拼音串从1000万个句型中找到参考句型,在未来3-5年内,0.1-0.5秒应能从4000万个句型中比对出参考句型。
“基于参考句型”的语言算法完全兼容了“分词”算法,并采用“非连续音节的转移概率”进行语句生成决策,比“N元文法统计模型”采用的“连续音节的转移概率”,更符合语言的规律,用若干个“参考句型”确定了一个拼音串的主干后,再用语法分析做补充,应能大幅度提高拼音输入、语音输入的水平,有重要的社会意义、学术意义、经济价值。我逢山开路遇水搭桥解决了算法,但提取1000万-4000万个最有代表性的基本句型需要社会各界的支持,特此呼吁社会各界提供语料!诚邀业界人士参与讨论分析,推进技术的发展!
2006-7-18
各位朋友,我提出了一种计算机处理语言的方案,有可能大幅度提高拼音输入、语音输入的水平,我已经在互联网上公开发贴,寻求社会各界的支持,尽快实现产品化,促进中文信息化,也为中国IT业发展出力。现在帖到这里,希望感兴趣的朋友参与这个项目或帮助传播这个信息,谢谢!完整的方案《语言处理技术》见下面网页的附件:
http://www.pkucn.com/viewthread.php?tid=176820&page=1&extra=page%3D3#pid1218072646
汉语是我们母语,汉字承载了我们五千年的文明,但汉语的信息化始终是我们民族现代化道路上的一道坎。目前使用分词算法和N元文法统计模型进行音字转换,准确率不能满足需要,所以我自2004年以来提出“基于参考句型的语言处理方法”,并给出了相关算法:
汉语语句的总数是难以穷尽的,所以一一列举的“基于实例的方法”是不可行的。但许多语句有共同的组成部分,称为“基本句型”,也可以称为“短语”,如:“他毕业五年了”、“他早就毕业了”、“他明年六月毕业”中的“他毕业”。另一方面,一个语句也可以有多个“交叉”“重叠”的“基本句型”,如:“这人的英语说得不流利”中的“这人说英语”、“英语流利”、“不流利”。
如果建立起汉语的基本句型数据库,设拼音输入、语音输入中有拼音串“zheren de yingyu shuo de bu liuli”,在数据库中找出“zheren*shuo*yingyu/这人说英语”,“yingyu*liuli/英语流利”、“bu*liuli /不流利”等作为参考句型。从多个参考句型中,首先选用最长的“这人说英语”,第2步以其中的“英语”去联想“英语流利”,第3步用“流利”去联想“不流利”,则可以处理为“这人de英语说得不流利”,最后用语法、词频等方法作补充,应能大幅度提高准确率。
计算机处理语言给出参考句型,就好比绘图中给出模板:要徒手画一个2厘米的等边三角形是很难的,更别说复杂的图案,如果给出许多的大小不一的各种形状模板,利用这些模板可以组合出千变万化的图案,再复杂的图案也可以画得八九不离十。同样,对于一种语言如果给出数百万乃至数千万的基本句型,利用这些基本句型交叉重叠就可能很好地解决音字转换问题。
由于语言中普遍存在的交叉现象,传统的索引方法不能发现“shixian-weida-lixiang/实现伟大理想”、“lixiang-yijing-shixian/理想已经实现”同数据库“shixian*lixiang/实现理想”有内在联系。当然,对字符串进行“逐字符比较”,也能发现两者之间存在包含关系,但响应速度不能满足需要。
所以我提出质数代换、位标记等方法来提高参考句型的查找速度,对比字符匹配,将速度提高了5-10倍,最高可以提高30倍。用VC独立编程模拟测试表明,一般情况下,在赛扬800的CPU上0.1-0.5秒能从400万条记录中查找出参考句型。据此推算,在高档微机0.1-0.5秒能为一个拼音串从1000万个句型中找到参考句型,在未来3-5年内,0.1-0.5秒应能从4000万个句型中比对出参考句型。
“基于参考句型”的语言算法完全兼容了“分词”算法,并采用“非连续音节的转移概率”进行语句生成决策,比“N元文法统计模型”采用的“连续音节的转移概率”,更符合语言的规律,用若干个“参考句型”确定了一个拼音串的主干后,再用语法分析做补充,应能大幅度提高拼音输入、语音输入的水平,有重要的社会意义、学术意义、经济价值。我逢山开路遇水搭桥解决了算法,但提取1000万-4000万个最有代表性的基本句型需要社会各界的支持,特此呼吁社会各界提供语料!诚邀业界人士参与讨论分析,推进技术的发展!
2006-7-18