《数学之美》 by 吴军
1 文字和语言vs数字和信息
2021-12-18 冬 周六记
原始人类A(信息源)将信息Message进行编码后(声音)通过空气(信道)传输,原始人类B(接收者)将听到的声音进行解码得到Message。这和当今的通信模型没有任何不同。但是当时需要表达的信息比较少(事件,物品,心情)比较少。随着时间的发展信息越来越多,语言就应运而生,可以理解为几百个信息。有一项研究说任何一种语言只要掌握核心的几十个词就可以表达任何意思。
当语言和词汇进一步发展变到5000个词,这也就是中文常用词的数量。没有人可以记下来这么多的词汇,所以利用文字来记录语言就应运而生。语言比文字的起源要早。很多人不会写字,但交流并没有什么问题(小孩子就是一个很好的例子,不会写字,但是会说话,也可以表达自己。语言是先于文字的)。 这5000多个词汇并非每一个只有一个意思,反而一个词语是许多概念的聚类,这就出现了语义的混淆,产生歧义。解决的办法就是分析上下文,分析上下文即是一种概率模型。在Matrin的数学笔记里了解过当年他们是怎么做中文分词的,基本是基于规则,但是中文的地名人名以及一些莫名其妙的语法让基于规则的分词很难有比较高的准确率,当时他们也提出了基于概率来做分词,似乎没有什么实际的应用。今天的自然语言处理就是利用概率做的。
文字是信息的载体,而非信息的本身。 不同的语言可以表达同一信息,利用不同的文字。
例如 猪 Pig。不同的文字系统在记录信息上的能力是等价的。
古埃及的象形文字于公元4世纪左右失传。1798年拿破仑远征埃及,同行学者发现了罗塞塔石碑,石碑上用3种语言分别是古埃及象形文字,埃及拼音文字,古希腊文,记录了托勒密五世登基的诏书,正是因为三种语言的记载,让人们破译了古埃及象形文字。从而了解了5000年前古埃及的历史。由此得出了两条结论,信息的冗余是信息安全的保障。双语或者多语的对照语料对于翻译至关重要!
早期人类对于计数常常是收集小石子来表征现实世界中某些数量,10个羊就在小罐子里放10个小石头。但更通常的情况是掰手指头,手指头掰完了就记一个进位,这也是为什么几乎所有的文明都用十进制来计数。当然最可爱的还是玛雅文明,手指头掰完了他们还要去掰脚趾头,直到都数完了才记一个进位,所以他们是二十进制的。
无论是手指头计数还是小石子计数,都是用方便数的事物去对应不方便数的事物。小石头比乱跑的羊好数,阿拉伯数字比小石头好数。数就是一种记录。好数意味着好记录。存在从一种事物的数量到另一种事物之间的数量的对应。现代集合论对于无穷的表示,与两个集合中元素的一一对应有关。常用自然数集来做一个标尺,
对于不同位数数字的表示。
数字 | 解释地区 |
---|---|
1903 | 古印度 |
壹仟玖佰零叁 | 中文 |
LMMIII(1000 + 1000 + 3 - 100) | 古罗马 |
可以看到中国的解释是乘法与加法,而古罗马是加减法。不论高明与否都存在了许多单位量词。古印度的数字,或者说阿拉伯数字因为存在 0 可以省去许多单位量词,这种写法既对应了十进制又方便阅读,今天的我们利用阿拉伯数字去读,只需要分着读1 9 0 3人们也能知道是多少。所以世界上广为传播。也导致了数字与文字的抽离。
现代的自然数公理系统所有的自然数均是由0以及一个后继操作(类似 + 1)衍生出来的。
文字有两种流派,一种是基于视觉的象形文字,另一种是基于声音的拼音文字。拼音文字的好处就在于20几个字符就能表述一个语言系统,若你去发出A,B,C,D的声音,观察自己的嘴型,会发现这是拼写和读音紧密结合的结果。与象形文字异曲同工之妙。但是拼音文字更加的抽象。
不论拼音文字还是象形文字,常用的词 拼音少 and or if, 笔画少,天 地 人,vice versa。写起来就省地方。这也符合信息论的最短编码原理。
有意思的是,中国古人的作品由于竹简的使用,导致尽量压缩语义,用字比较少。可他们平常说话可不那么说,基本也是白话口语,用字很多。信道宽,则信息无需压缩可以直接传输。信道窄,则需要压缩信息再传输。大学生交文档作业,老师会要求所有人的文档放到一个文件夹里压缩后再传给他。白话转成文言文也是一种压缩过程。
由于古犹太人对于《圣经》的虔诚,抄写时不可以抄错,但抄错在所难免,于是以前的人们就将每一字母对应一个数字,一行一列的字母变成数字加起来如果同圣经原文得数一样则表示无错。这同今天的各种校验方式基本一致。
综上,古今无异也。所见所闻,新奇何在?
大模型时代,文字创作已死。2025年全面停更了,世界不需要知识分享。
如果我的工作对您有帮助,您想回馈一些东西,你可以考虑通过分享这篇文章来支持我。我非常感谢您的支持,真的。谢谢!
作者:Dba_sys (Jarmony)
转载以及引用请注明原文链接:https://www.cnblogs.com/asmurmur/articles/15705410.html
本博客所有文章除特别声明外,均采用CC 署名-非商业使用-相同方式共享 许可协议。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律