C语言中的文本流与二进制流的区别
近期看到了文本流和二进制流的区别,书上讲的比较含糊,理解不透彻,于是细细琢磨了下,把心得跟大家分享一下:
一、首先回答,什么是文件,流
一个文件通常就是磁盘上的一段命名的存储区。比如 stdio.h 就是一个包含一些有用信息的文件的名称。
C将文件看成是连续的字节序列,其中每一个字节都可以单独地读取。这与 UNIX 环境(C的发源地)中的文件结构是一致的。因为其他环境中的文件模型可能会有所不同,所以 ANSI C 提供了文件的两种视图:文本视图和二进制视图。
C将数据的输入输出看作是数据的流入和流出,不管是磁盘文件或者是物理设备都可看作一种流的源和目的,视他们为同一种东西,而不管其具体的物理结构,即对他们的操作,就是数据的流入和流出。这种把数据的输入输出操作对象,抽象化为一 种流,而不管它的具体结构的方法很有利于编程,而涉及流的输出操作函数可用于各种对象,与其具体的实体无关,即具有通用性。
二、文本视图和二进制视图区别
二进制视图中每个字节都可以为程序所访问。
在文本视图中,程序看到的内容和文件的内容有可能不同(非 UNIX 环境)。举例,DOS下有个文件 test.txt,内容为
hello\r\n
world\r\n
^Z
当以二进制模式打开 test.txt 时,C程序看到的内容跟原来一样(如下),此时,没有任何映射发生。
hello\r\n
world\r\n
^Z
当以文本模式打开 test.txt 时,C程序看到的是如下内容:(注意行尾和文件结束符)
hello\n world\n
也就是说使用文本视图读取文件时,将把行尾的本地环境表示法映射为 C 视图;在输出的时候,也会将 C 视图中的行尾表示映射为本地环境表示法。这样,C 通过文本视图巧妙的将不同环境(DOS,MAC)下的文件转换为相同的表示(UNIX下的表示法)。
而二进制视图则与原文件没有丝毫变化!有点理解了吧?
三、文本文件与二进制文件
文本文件是基于字符编码的文件,基本是定长的,常见的编码有ASCII编码,UNICODE编码等等。二进制文件是基于值编码的文件,变长编码,你可以根据具体应用,指定某个值是什么意思(这样一个过程,可以看作是自定义编码)。
文本工具打开一个文件的过程是怎样的呢?拿记事本来说,它首先读取文件物理上所对应的二进制比特流,然后按照你所选择的解码方式来解释这个流,最后将解释结果显示出来。当用记事本打开二进制文件时,由于按既定的字符编码工作(如ASCII码),所以出现乱码也是很必然的一件事情了。
文本文件编码基于字符定长,译码容易些;二进制文件编码是变长的,所以它灵活,存储利用率要高些,译码难一些(不同的二进制文件格式,有不同的译码方式)。 文本文件的可读性要好些,存储要花费转换时间(读写要编译码),而二进制文件可读性差(需要具体的文件解码器),存储不存在转换时间(读写不要编解码,直接写值)。
你懂了吗?
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?
· Pantheons:用 TypeScript 打造主流大模型对话的一站式集成库