除了递归算法，要如何优化实现文件搜索功能

合集 - 威哥爱编程(68)

1.35个Redis企业级性能优化点与解决方案2024-06-25 2.对比传统数据库，TiDB 强在哪？谈谈 TiDB 的适应场景和产品能力2024-06-25 3.深度长文解析SpringWebFlux响应式框架15个核心组件源码2024-07-04 4.Nginx性能调优5招35式不可不知的策略实战2024-07-08 5.Java Executors类的9种创建线程池的方法及应用场景分析2024-07-09 6.Redis数据结构—跳跃表 skiplist 实现源码分析2024-07-12 7.Volatile不保证原子性及解决方案2024-07-19 8.吃透 JVM 诊断方法与工具使用2024-08-01 9.Java RMI技术详解与案例分析2024-08-05 10.通过JUnit源码分析学习编程的奇技淫巧2024-08-12 11.什么是依赖倒置原则2024-08-14 12.初探 Rust 语言与环境搭建2024-08-19 13.为什么用Vite框架？来看它的核心组件案例详解2024-08-22 14.Vue状态管理库Pinia详解2024-08-23 15.Tomcat的配置文件中有哪些关键的配置项，它们分别有什么作用？2024-08-26 16.ECharts实现雷达图详解2024-09-02 17.OpenFeign深入学习笔记2024-09-03 18.阿里面试让聊一聊Redis 的内存淘汰（驱逐）策略2024-09-23

19.除了递归算法，要如何优化实现文件搜索功能2024-09-24

20.关于建表字段是否该使用not null这个问题你怎么看?2024-09-25 21.三大硬核方式揭秘：Java如何与底层硬件和工业设备轻松通信！2024-09-26 22.在 ArkTS 中，如何有效地进行内存管理和避免内存泄漏？2024-09-27 23.10款好用的开源 HarmonyOS 工具库2024-09-30 24.尝鲜 HarmonyOS NEXT 开发环境搭建2024-09-30 25.HarmonyOS NEXT 底部选项卡功能2024-10-09 26.HarmonyOS NEXT 开发之ArkTS基础入门2024-10-10 27.ArkTS 和仓颉的特性对比与案例2024-10-11 28.Spark任务OOM问题如何解决？2024-10-14 29.鸿蒙NEXT开发声明式UI是咋回事？2024-10-15 30.HarmonyOS NEXT开发之ArkTS自定义组件学习笔记2024-10-16 31.如何在鸿蒙 NEXT 中使用 @Builder 装饰器优化 UI 组件的复用？2024-10-16 32.鸿蒙 NEXT 如何使用 @Styles 装饰器来优化我的组件代码？2024-10-17 33.Java 如何确保 JS 不被缓存2024-10-21 34.10月22日纯血鸿蒙正式版发布意味着什么？2024-10-23 35.鸿蒙NEXT应用上架与分发步骤详解2024-10-25 36.Java EasyExcel 导出报内存溢出如何解决2024-10-28 37.Java Z 垃圾收集器如何彻底改变内存管理2024-10-30 38.聊聊公众号联动扫码登录功能如何实现2024-11-01 39.IDEA中通义灵码的使用技巧2024-11-04 40.细谈 Linux 中的多路复用epoll2024-11-05 41.适合才最美：Shiro安全框架使用心得2024-11-06 42.MongoDB面试专题33道解析2024-11-07 43.SQL Server 数据太多如何优化2024-11-08 44.【项目场景】请求数据时测试环境比生产环境多花了1秒是怎么回事？2024-11-11 45.Java灵魂拷问13个为什么，你都会哪些？2024-11-13 46.异步编程在ArkTS中具体怎么实现？2024-11-21 47.如何理解ArkTS不支持structural typing2024-11-21 48.ArkTS四种渲染控制能力2024-11-25 49.在ArkTS中，如何优化布局以提高性能？2024-12-03 50.ArkUI与MVVM模式的诗和远方2024-12-04 51.鸿蒙NEXT开发中如何确保使用 PersistentStorage 存储的数据安全？2024-12-06 52.优雅的@ObservedV2和@Trace装饰器2024-12-11 53.10个案例告诉你mysql不使用子查询的原因2024-12-23 54.鸿蒙 NEXT 开发中，使用公共事件进行进程间通信01-02 55.鸿蒙NEXT开发中使用星闪服务01-03 56.鸿蒙NEXT使用request模块实现本地文件上传01-06 57.玩转 DevEco Studio 5 代码重构功能01-07 58.JAVA线程池有哪些队列？以及它们的适用场景案例01-08 59.2025 年，程序员如何找准技术“掘金点”？01-10 60.鸿蒙 NEXT 开发中，普通对象跨线程如何传递01-13 61.什么是内存泄漏？C++中如何检测和解决？01-15 62.使用贪心算法解决最小生成树问题01-20 63.如何使用 Python 进行文件读写操作？01-21 64.如何在Python中高效地读写大型文件？01-22 65.2025春招，Spring 面试题汇总01-23 66.2025春招 SpringCloud 面试题汇总02-05 67.无需编码5分钟免费部署云上调用满血版DeepSeek02-14 68.Python 实现反转、合并链表有啥用？02-19

大家好，我是 V 哥，今天的文章来聊一聊 Java实现文件搜索功能，并且比较递归算法、迭代方式和Memoization技术的优缺点。

以下是一个使用 Java 实现的文件搜索功能，它会在指定目录及其子目录中搜索包含特定关键字的文件。此实现使用递归方式遍历目录，并可以使用文件名或内容搜索文件。

使用递归搜索文件

import java.io.File;
import java.io.FileNotFoundException;
import java.util.Scanner;

public class FileSearcher {

    // 在指定目录中搜索包含关键字的文件
    public static void searchFiles(File directory, String keyword) {
        // 获取目录下的所有文件和子目录
        File[] files = directory.listFiles();

        if (files == null) {
            System.out.println("目录不存在或无法读取：" + directory.getAbsolutePath());
            return;
        }

        // 遍历文件和子目录
        for (File file : files) {
            if (file.isDirectory()) {
                // 如果是目录，递归搜索
                searchFiles(file, keyword);
            } else {
                // 如果是文件，检查文件名或文件内容是否包含关键字
                if (file.getName().contains(keyword)) {
                    System.out.println("找到匹配文件（文件名）： " + file.getAbsolutePath());
                } else if (containsKeyword(file, keyword)) {
                    System.out.println("找到匹配文件（文件内容）： " + file.getAbsolutePath());
                }
            }
        }
    }

    // 检查文件内容是否包含关键字
    private static boolean containsKeyword(File file, String keyword) {
        try (Scanner scanner = new Scanner(file)) {
            // 逐行读取文件内容并检查是否包含关键字
            while (scanner.hasNextLine()) {
                String line = scanner.nextLine();
                if (line.contains(keyword)) {
                    return true;
                }
            }
        } catch (FileNotFoundException e) {
            System.out.println("无法读取文件：" + file.getAbsolutePath());
        }
        return false;
    }

    public static void main(String[] args) {
        // 指定搜索的目录和关键字
        String directoryPath = "C:/java"; // 替换为实际目录路径
        String keyword = "vg"; // 替换为实际关键字

        // 创建文件对象表示目录
        File directory = new File(directoryPath);

        // 开始搜索
        searchFiles(directory, keyword);
    }
}

关键方法说明一下

searchFiles 方法：这是递归搜索文件的主方法。它遍历给定目录中的所有文件和子目录。如果发现某个文件名或文件内容包含指定关键字，则输出文件路径。
containsKeyword 方法：检查文件内容是否包含关键字。它逐行读取文件内容，以查找是否有包含关键字的行。
main 方法：在主方法中，指定要搜索的目录路径和关键字，然后调用 searchFiles 方法开始搜索。

使用说明

修改 directoryPath 和 keyword 变量，指定你要搜索的目录路径和关键字。
运行代码后，它将在指定目录及其子目录中搜索文件，并输出匹配的文件路径。

注意喽

该实现使用递归搜索目录，适用于层次较浅的文件目录。对于非常深的目录结构，可以考虑使用迭代方式。
containsKeyword 方法在搜索文件内容时使用 Scanner 逐行读取，这种方式适用于文本文件。对于非文本文件（如二进制文件），需要不同的处理方式。

问题来了，如果文件层次非常深的目录结构，需要怎么优化？

对于非常深的目录结构，使用递归搜索文件可能会导致栈溢出问题，因为每次递归调用都会消耗栈空间。要优化这种情况下的文件搜索，可以使用迭代的方式来替代递归，从而避免栈溢出风险。迭代方式通常使用一个栈或队列来模拟递归的过程，这样可以处理任意深度的目录结构。

以下是优化后的 Java 文件搜索实现，使用迭代方式遍历深层次的目录结构：

使用迭代方式搜索文件

import java.io.File;
import java.io.FileNotFoundException;
import java.util.LinkedList;
import java.util.Queue;
import java.util.Scanner;

public class FileSearcherIterative {

    // 使用迭代方式搜索包含关键字的文件
    public static void searchFiles(File rootDirectory, String keyword) {
        // 使用队列来进行广度优先搜索
        Queue<File> queue = new LinkedList<>();
        queue.add(rootDirectory);

        while (!queue.isEmpty()) {
            // 取出队列头部的文件/目录
            File current = queue.poll();

            // 如果是目录，添加子文件和子目录到队列中
            if (current.isDirectory()) {
                File[] files = current.listFiles();

                // 如果目录无法读取，跳过
                if (files == null) {
                    System.out.println("无法读取目录：" + current.getAbsolutePath());
                    continue;
                }

                for (File file : files) {
                    queue.add(file);
                }
            } else {
                // 如果是文件，检查文件名或文件内容是否包含关键字
                if (current.getName().contains(keyword)) {
                    System.out.println("找到匹配文件（文件名）： " + current.getAbsolutePath());
                } else if (containsKeyword(current, keyword)) {
                    System.out.println("找到匹配文件（文件内容）： " + current.getAbsolutePath());
                }
            }
        }
    }

    // 检查文件内容是否包含关键字
    private static boolean containsKeyword(File file, String keyword) {
        try (Scanner scanner = new Scanner(file)) {
            // 逐行读取文件内容并检查是否包含关键字
            while (scanner.hasNextLine()) {
                String line = scanner.nextLine();
                if (line.contains(keyword)) {
                    return true;
                }
            }
        } catch (FileNotFoundException e) {
            System.out.println("无法读取文件：" + file.getAbsolutePath());
        }
        return false;
    }

    public static void main(String[] args) {
        // 指定搜索的目录和关键字
        String directoryPath = "C:/java"; // 替换为实际目录路径
        String keyword = "vg"; // 替换为实际关键字

        // 创建文件对象表示目录
        File rootDirectory = new File(directoryPath);

        // 开始搜索
        searchFiles(rootDirectory, keyword);
    }
}

代码说明

使用队列实现广度优先搜索（BFS）：
- 在这里，我们使用 Queue 来实现广度优先搜索（BFS），也可以使用 Stack 实现深度优先搜索（DFS）。BFS 更加适合处理文件目录，因为它可以在处理一个目录前先将其所有子文件/子目录添加到队列中，从而降低栈深度。
迭代遍历目录：
- 每次从队列中取出一个文件或目录，如果是目录则将其子文件和子目录添加到队列中，如果是文件则检查其是否包含关键字。
处理不可读目录：
- 在尝试读取目录时，可能遇到无法读取的情况（例如权限问题），这里使用 if (files == null) 进行检查并跳过不可读的目录。

优化要点

避免栈溢出：使用迭代方式而不是递归，避免递归调用带来的栈溢出风险。
适应任意深度的目录结构：无论目录层次多深，都可以正常工作，不受递归深度限制。
广度优先或深度优先搜索：可以根据需求使用 Queue（BFS）或 Stack（DFS）。BFS 更适合较宽的目录结构，而 DFS 可以更快找到较深层次的文件。

注意一下

在非常深的目录或含有大量文件的情况下，搜索操作可能会很耗时。可以考虑增加其他优化，如多线程处理。
containsKeyword 方法适用于文本文件，对于二进制文件需调整逻辑以防止误匹配。

来，我们继续优化。

如果文件或目录中存在符号链接（软链接）或循环引用的文件系统，会导致重复访问相同文件或目录的情况，那要怎么办呢？

Memoization技术闪亮登场

Memoization 技术介绍

Memoization 是一种用于优化递归算法的技术，它通过缓存函数的中间结果来避免重复计算，从而提高性能。这个技术在计算具有重叠子问题（overlapping subproblems）的递归算法时非常有用，如斐波那契数列、背包问题、动态规划等。

Memoization 的工作原理

缓存中间结果：每次函数调用时，将结果存储在一个数据结构（如哈希表、数组或字典）中，以后如果函数再次被调用，且参数相同，则直接从缓存中返回结果，而不再进行重复计算。
减少时间复杂度：通过存储中间结果，Memoization 将递归算法的时间复杂度从指数级降低到多项式级。

使用 Memoization 技术优化深层次递归算法

以下是如何使用 Memoization 技术来优化 Java 中的深层次递归算法的示例。这里以斐波那契数列为例，首先展示一个未优化的递归实现，然后通过 Memoization 进行优化。

1. 未优化的递归算法

public class FibonacciRecursive {
    // 未使用 Memoization 的递归斐波那契算法
    public static int fib(int n) {
        if (n <= 2) {
            return 1;
        }
        return fib(n - 1) + fib(n - 2);
    }

    public static void main(String[] args) {
        int n = 40; // 比较大的 n 会导致大量重复计算
        System.out.println("Fibonacci of " + n + " is: " + fib(n)); // 非常慢
    }
}

这种实现的时间复杂度是 O(2^n)，因为它会重复计算相同的子问题，特别是当 n 很大时，效率非常低。

2. 使用 Memoization 优化递归算法

使用 Memoization，我们可以通过缓存中间结果来避免重复计算。这里使用一个数组 memo 来存储已经计算过的斐波那契值。

import java.util.HashMap;
import java.util.Map;

public class FibonacciMemoization {
    // 使用 Memoization 的递归斐波那契算法
    private static Map<Integer, Integer> memo = new HashMap<>();

    public static int fib(int n) {
        // 检查缓存中是否已有结果
        if (memo.containsKey(n)) {
            return memo.get(n);
        }

        // 递归边界条件
        if (n <= 2) {
            return 1;
        }

        // 计算结果并缓存
        int result = fib(n - 1) + fib(n - 2);
        memo.put(n, result);

        return result;
    }

    public static void main(String[] args) {
        int n = 40;
        System.out.println("Fibonacci of " + n + " is: " + fib(n)); // 快速计算
    }
}

解释一下

缓存结果：memo 是一个 HashMap，用来存储每个 n 对应的斐波那契数值。每次计算 fib(n) 时，先检查 memo 中是否已经存在结果，如果存在，直接返回缓存值。
减少重复计算：通过存储中间结果，避免了对相同子问题的重复计算，将时间复杂度降低为 O(n)。
递归边界：当 n <= 2 时，直接返回 1。

优化效果

通过使用 Memoization 技术，递归算法从指数级时间复杂度 O(2^n) 降低到了线性时间复杂度 O(n)。这意味着，即使 n 非常大，计算时间也将大大缩短。

更通用的 Memoization 例子

Memoization 不仅可以应用于斐波那契数列，还可以应用于其他需要深层次递归的场景，例如：

动态规划问题：如背包问题、最长公共子序列、字符串编辑距离等。
树和图算法：如求树的最大路径、图中的最短路径。

注意事项

空间复杂度：Memoization 使用了额外的空间来存储中间结果，可能导致空间复杂度增加，尤其在处理大量中间结果时需要注意。
适用场景：Memoization 适用于具有重叠子问题的递归问题，对于无重叠子问题的递归（如分治法）不适用。
多线程环境：在多线程环境中使用 Memoization 时需要考虑线程安全问题，可以使用线程安全的数据结构或同步机制。

Memoization 是一种简单而有效的优化技术，通过缓存中间结果可以极大地提升递归算法的性能。

所以，我们通过Memoization技术来改造一下文件搜索功能。

Memoization 技术优化

对于深层次文件搜索功能，Memoization 技术可以用来优化重复访问相同文件或目录的情况。特别是对于可能存在符号链接（软链接）或循环引用的文件系统，Memoization 可以防止多次搜索相同的目录或文件，避免死循环和性能下降。

以下是使用 Memoization 优化文件搜索的示例，在搜索过程中缓存已经访问过的目录，防止重复搜索：

使用 Memoization 优化文件搜索

import java.io.File;
import java.io.FileNotFoundException;
import java.util.HashSet;
import java.util.LinkedList;
import java.util.Queue;
import java.util.Scanner;
import java.util.Set;

public class FileSearcherMemoization {
    // 使用 HashSet 来缓存已经访问过的目录路径
    private static Set<String> visitedPaths = new HashSet<>();

    // 使用迭代方式搜索包含关键字的文件，并利用 Memoization 防止重复访问
    public static void searchFiles(File rootDirectory, String keyword) {
        // 使用队列来进行广度优先搜索
        Queue<File> queue = new LinkedList<>();
        queue.add(rootDirectory);

        while (!queue.isEmpty()) {
            // 取出队列头部的文件/目录
            File current = queue.poll();

            // 获取当前路径
            String currentPath = current.getAbsolutePath();

            // 检查是否已经访问过该路径
            if (visitedPaths.contains(currentPath)) {
                continue; // 如果已经访问过，跳过，防止重复搜索
            }

            // 将当前路径加入到已访问集合
            visitedPaths.add(currentPath);

            // 如果是目录，添加子文件和子目录到队列中
            if (current.isDirectory()) {
                File[] files = current.listFiles();

                // 如果目录无法读取，跳过
                if (files == null) {
                    System.out.println("无法读取目录：" + currentPath);
                    continue;
                }

                for (File file : files) {
                    queue.add(file);
                }
            } else {
                // 如果是文件，检查文件名或文件内容是否包含关键字
                if (current.getName().contains(keyword)) {
                    System.out.println("找到匹配文件（文件名）： " + current.getAbsolutePath());
                } else if (containsKeyword(current, keyword)) {
                    System.out.println("找到匹配文件（文件内容）： " + current.getAbsolutePath());
                }
            }
        }
    }

    // 检查文件内容是否包含关键字
    private static boolean containsKeyword(File file, String keyword) {
        try (Scanner scanner = new Scanner(file)) {
            // 逐行读取文件内容并检查是否包含关键字
            while (scanner.hasNextLine()) {
                String line = scanner.nextLine();
                if (line.contains(keyword)) {
                    return true;
                }
            }
        } catch (FileNotFoundException e) {
            System.out.println("无法读取文件：" + file.getAbsolutePath());
        }
        return false;
    }

    public static void main(String[] args) {
        // 指定搜索的目录和关键字
        String directoryPath = "C:/ java"; // 替换为实际目录路径
        String keyword = "vg"; // 替换为实际关键字

        // 创建文件对象表示目录
        File rootDirectory = new File(directoryPath);

        // 开始搜索
        searchFiles(rootDirectory, keyword);
    }
}

解释

Memoization 数据结构：
- 使用 HashSet<String> 作为缓存（visitedPaths），存储已经访问过的目录的绝对路径。HashSet 提供 O(1) 时间复杂度的查找操作，确保检查是否访问过一个路径的效率很高。
缓存访问的目录：
- 在每次处理一个文件或目录时，先检查其路径是否在 visitedPaths 中。如果存在，说明已经访问过，直接跳过，防止重复搜索。
- 如果没有访问过，则将当前路径加入到 visitedPaths 中，并继续搜索。
防止死循环：
- 通过缓存路径，可以防止在存在符号链接或循环引用时的无限递归或重复搜索。特别是文件系统中符号链接可能导致目录循环引用，Memoization 技术可以有效地避免这种情况。
迭代搜索：
- 继续使用迭代方式进行广度优先搜索（BFS），适合深层次的目录结构，防止因递归深度过深导致栈溢出。

优化效果

通过引入 Memoization，文件搜索功能可以：

避免重复访问相同的目录或文件，从而提高性能，尤其在存在符号链接或循环结构的情况下。
防止由于重复搜索导致的死循环，确保搜索过程安全可靠。

注意事项

内存使用：
- 使用 Memoization 会增加内存使用，因为需要保存已经访问过的目录路径。在搜索非常大的目录树时，注意内存消耗。
多线程环境：
- 如果需要并行化搜索，可以使用线程安全的数据结构，如 ConcurrentHashMap 或 ConcurrentSkipListSet，确保在多线程环境中缓存的访问安全。

这个优化版本通过 Memoization 技术避免了重复搜索和死循环，提高了搜索性能和稳定性，特别适合在复杂的文件系统中进行深层次搜索。原创不易，感谢点赞支持。收藏起来备孕哦。

posted @ 2024-09-24 11:22 威哥爱编程阅读(707) 评论(1) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· MongoDB面试专题33道解析

· SQL Server 数据太多如何优化

· 基础数据结构之递归

· 【Java】File类、递归

· 操作系统学习笔记（全）

阅读排行：
· [翻译] 为什么 Tracebit 用 C# 开发
· 腾讯ima接入deepseek-r1，借用别人脑子用用成真了~
· Deepseek官网太卡，教你白嫖阿里云的Deepseek-R1满血版
· DeepSeek崛起：程序员“饭碗”被抢，还是职业进化新起点？
· RFID实践——.NET IoT程序读取高频RFID卡/标签

公告

华为开发者专家（HDE）

昵称：威哥爱编程
园龄： 2年9个月
粉丝： 32
关注： 0

+加关注

2025年2月

日

一

二

三

四

五

六

威哥爱编程

华为开发者专家（HDE）：专注于 Java、HarmonyOS、AI 大模型、Go技术分享

除了递归算法，要如何优化实现文件搜索功能

使用递归搜索文件

关键方法说明一下

使用说明

注意喽

使用迭代方式搜索文件

代码说明

优化要点

注意一下

Memoization 技术介绍

Memoization 的工作原理

使用 Memoization 技术优化深层次递归算法

1. 未优化的递归算法

2. 使用 Memoization 优化递归算法

解释一下

优化效果

更通用的 Memoization 例子

注意事项

Memoization 技术优化

使用 Memoization 优化文件搜索

解释

优化效果

注意事项

公告

搜索

常用链接

我的标签

合集

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论