1,没别的,像这种没有规则的转化,我们首先需要一个字典文件,字典文件的完整度,决定了转化的成功率与精确度

2,笔者收集了较为完整的字典文件,已上传到博客园,欢迎补充  =>  https://blog-static.cnblogs.com/files/lovling/pinyin.dict.js

这个地址可以直接用 script 标签引入,但是博客园经常抽风,是不是的访问不到,推荐使用时还是在浏览器打开,拷贝到本地在引入使用

3,借助字典,编写程序进行匹配转化,代码如下,注释写的不是很详细,不过相信都能看懂

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>汉字转化为拼音</title>
    <!--<script src="https://blog-static.cnblogs.com/files/lovling/pinyin.dict.js"></script>-->
    <script src="./pinyin.dict.js"></script>
    <script src="https://cdn.bootcss.com/jquery/3.3.0/jquery.min.js"></script>
</head>
<style type="text/css">
    #word, #butt {
        width: 360px;
        height: 44px;
        margin: 0;
        padding: 0;
        box-sizing: border-box;
        font-size: 14px;
    }
    #text1, #text2, #text3 {
        height: 44px;
    }
</style>
<body>
    <input id="word" type="text" />
    <input id="butt" type="button" value="转化" />
    <div id="text1"></div>
    <div id="text2"></div>
    <div id="text3"></div>
</body>
<script type="text/javascript">
    /**
     * 封装汉字转化为拼音的方法,该方法具有以下特点
     * 1, 多音字只是识别成多种拼音组合, 不能精准识别
     * 2, 不开启多音字, 汉字识别返回使用频率高的拼音
     * @param {String} str: 汉字字符串
     * @param {Boolean} isTone: 是否进行声调识别 默认 false
     * @param {Boolean} isMultitone: 是否穷举多音字 默认 false
     * @return: 如果开启多音字识别, 返回的是数组, 否则返回字符串
     */
    var chineseCharToPinyin = (function () {
        // 注意这里的变量 pinyinDict 来自于字典文件,需要先引入字典文件,且该变量不要在程序中被覆盖
        var temp = pinyinDict.split(','), withtone = {};
        // 循环遍历字典,以汉字字符为 key,对应的拼音为 value,形成一个超大的 JSON 对象
        for(var i = 0; i < temp.length; i++) {
            withtone[String.fromCharCode(i + 19968)] = temp[i];
        }
        var toneMap = {
            "ā": "a1", "á": "a2", "ǎ": "a3", "à": "a4", "ō": "o1", "ó": "o2", "ǒ": "o3",
            "ò": "o4", "ē": "e1", "é": "e2", "ě": "e3", "è": "e4", "ī": "i1", "í": "i2",
            "ǐ": "i3", "ì": "i4", "ū": "u1", "ú": "u2", "ǔ": "u3", "ù": "u4", "ü": "v0",
            "ǖ": "v1", "ǘ": "v2", "ǚ": "v3", "ǜ": "v4", "ń": "n2", "ň": "n3", "": "m2"
        };
        // 未开启声调识别的时候,将带声调的字符切换成不带声调的字母
        var removeTone = function(pinyin) {
            return pinyin.replace(/[āáǎàōóǒòēéěèīíǐìūúǔùüǖǘǚǜńň]/g, function(m) {
                return toneMap[m][0];
            });
        };
        // 过滤掉多音字穷举产生的相同结果
        var simpleUnique = function(array) {
            var result = [], hash = {};
            for(var i = 0; i < array.length; i++) {
                var key = (typeof array[i]) + array[i];
                if(!hash[key]) {
                    result.push(array[i]);
                    hash[key] = true;
                }
            }
            return result;
        };
        // 多音字穷举
        var handlePolyphone = function(array, joinChar) {
            var result = [''], temp = [];
            for(var i = 0; i < array.length; i++) {
                temp = [];
                var t = array[i].split(' ');
                for(var j = 0; j < t.length; j++) {
                    for(var k = 0; k < result.length; k++)
                        temp.push(result[k] + (result[k] ? joinChar : '') + t[j]);
                }
                result = temp;
            }
            return simpleUnique(result);
        };
        // 对外返回一个转化的方法
        return function (str, isTone = false, isMultitone = false) {
            var result = [], pinyin;
            for(var i = 0; i < str.length; i++) {
                pinyin = withtone[str[i]];
                if(!isTone && pinyin) pinyin = removeTone(pinyin);
                if(!isMultitone && pinyin) pinyin = pinyin.replace(/ .*$/g, '');
                result.push(pinyin || str[i]);
            }
            if(!isMultitone) return result.join(" ");
            return handlePolyphone(result, " ");
        }
    })();


    /**
     * 写一个输入框测试一下
     */
    $('#butt').on("click", function (ev) {
        var str = $("#word").val().trim();

        // 最简单的使用
        $("#text1").text(chineseCharToPinyin(str));

        // 带读声识别的使用
        $("#text2").text(chineseCharToPinyin(str, true));

        // 穷举多音字的使用
        $("#text3").text(chineseCharToPinyin(str, true, true))

    });
</script>
</html>

4,效果如下,还是不错的吗

5,唯一遗憾的是,我们发现,开启多音字识别的时候,并不能准确的识别出我们想要的,而是返回了所有可能的组合

6,我们有办法实现准确的识别码?理论上是可行的,只要我们拥有一个强大的词典,

7,注意是词典,不是字典,指每个汉字的所有可能词组,包括各种不同语境,某些地区的使用习惯,某些群体的使用习惯等等

7,这已经涉及到大数据和人工智能的(个人看法),由于组合实在太多,想要收集十分困难,就算收集完成,计算量也非常庞大,一般设备也不一定带的动

 

posted on 2019-03-13 10:14  被遗忘的优雅  阅读(742)  评论(0编辑  收藏  举报