187. 重复的DNA序列

所有 DNA 都由一系列缩写为 'A','C','G' 和 'T' 的核苷酸组成,例如:"ACGAATTCCG"。在研究 DNA 时,识别 DNA 中的重复序列有时会对研究非常有帮助。

编写一个函数来找出所有目标子串,目标子串的长度为 10,且在 DNA 字符串 s 中出现次数超过一次。

示例 1:

输入:s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"
输出:["AAAAACCCCC","CCCCCAAAAA"]
示例 2:

输入:s = "AAAAAAAAAAAAA"
输出:["AAAAAAAAAA"]

来源:力扣(LeetCode)
链接:https://leetcode-cn.com/problems/repeated-dna-sequences
著作权归领扣网络所有。商业转载请联系官方授权,非商业转载请注明出处。


类似的题目:

28. 实现 strStr()
214. 最短回文串
686. 重复叠加字符串匹配

import java.util.*;

class Solution {

    private static final Map<Character, Integer> CHAR_MAP = new HashMap<Character, Integer>() {{
        put('A', 0);
        put('C', 1);
        put('G', 2);
        put('T', 3);
    }};

    private static final int MASK = (1 << 20) - 1;

    private static final int LENGTH = 10;

    public List<String> findRepeatedDnaSequences(String s) {
        if (s == null || s.length() <= 10) {
            return Collections.emptyList();
        }

        List<String> ans = new ArrayList<>();

        Map<Integer, Integer> numMap = new HashMap<>();

        int num = 0;
        for (int i = 0; i < LENGTH - 1; ++i) {
            num = ((num << 2) | CHAR_MAP.get(s.charAt(i))) & MASK;
        }

        for (int i = LENGTH - 1; i < s.length(); ++i) {
            num = ((num << 2) | CHAR_MAP.get(s.charAt(i))) & MASK;
            int cnt = numMap.getOrDefault(num, 0);
            if (cnt == 1) {
                ans.add(s.substring(i - LENGTH + 1, i + 1));
            }
            numMap.put(num, cnt + 1);
        }

        return ans;
    }
}
posted @   Tianyiya  阅读(57)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 终于写完轮子一部分:tcp代理 了,记录一下
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
点击右上角即可分享
微信分享提示