面试题 17.13. 恢复空格 (JAVA)

哦,不!你不小心把一个长篇文章中的空格、标点都删掉了,并且大写也弄成了小写。像句子"I reset the computer. It still didn’t boot!"已经变成了"iresetthecomputeritstilldidntboot"。在处理标点符号和大小写之前,你得先把它断成词语。当然了,你有一本厚厚的词典dictionary,不过,有些词没在词典里。假设文章用sentence表示,设计一个算法,把文章断开,要求未识别的字符最少,返回未识别的字符数。

示例:

输入:
dictionary = ["looked","just","like","her","brother"]
sentence = "jesslookedjustliketimherbrother"
输出: 7
解释: 断句后为"jess looked just like tim her brother",共7个未识别字符。
提示:

  • 0 <= len(sentence) <= 1000
  • dictionary中总字符数不超过 150000。
  • 你可以认为dictionary和sentence中只包含小写字母。

思路:建立字典树的数据结构,然后使用动态规划。

字典树,又称为Trie,或Prefix Tree,一个节点的所有子孙都有相同的前缀,根结点一般为空,每个节点一般有26个孩子,对应26个英文字母

应用:

(1) 自动补全
(2) 拼写检查
(3) IP路由表
在IP路由表中进行路由匹配时, 要按照最长匹配前缀的原则进行匹配。
(4) T9预测文本
手机上用9格的那种输入法输入时,能够根据用户在9格上的输入,自动匹配出可能的单词。
(5) 填单词游戏
那种在横竖的格子里填单词的游戏。

class Solution {
    public class Node {
        public Node[] dict;
        public boolean isEnd;
        public Node(){
            this.dict = new Node[26];
            this.isEnd = false;
        }
    }
    public int respace(String[] dictionary, String sentence) {
        //构造字典树
        Node dummyNode = new Node();
        Node currentNode; 
        int pos;
        for(String word : dictionary){ 
            currentNode = dummyNode;
            for (int i = word.length()-1; i >= 0; i--){ //将单词倒序放入字典树(因为动态规划由后往前遍历)
                pos = word.charAt(i)-'a';
                if(currentNode.dict[pos] == null) currentNode.dict[pos] = new Node();
                currentNode = currentNode.dict[pos];
            }
            currentNode.isEnd = true;
        }

        //动态规划
        int[] dp = new int[sentence.length()+1];
        dp[0] = 0;
        for(int i = 0; i < sentence.length(); i++){
            currentNode = dummyNode;
            dp[i+1] = dp[i] + 1;
            for(int j = i; j >= 0; j--){
                pos = sentence.charAt(j)-'a';
                /* 动态转移方程
                 * 如果在sentence[j]找到单词 那么dp[i+1] = dp[j];
                 * 如果在sentence[j]没有找到单词 那么dp[i+1] = dp[k+1] + k-i (j<=k<=i)
                 */
                if(currentNode.dict[pos]!=null){
                    currentNode = currentNode.dict[pos];
                    if(currentNode.isEnd){
                        if (dp[j] < dp[i+1]) dp[i+1] = dp[j];
                        //这里不需要break,因为可能存在某个单词是另一个单词的后缀,比如 her & brother
                    } else {
                        if(dp[j+1] + i-j < dp[i]) dp[i+1] = dp[j+1] + i-j;
                    }
                } else {
                    if(dp[j+1] + i-j< dp[i]) dp[i+1] = dp[j+1] + i-j;
                    break;
                }
            }
        }
        return dp[sentence.length()];
    }
}

 

posted on 2020-07-11 00:55  joannae  阅读(186)  评论(0编辑  收藏  举报

导航