会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
躺柒
博客园
首页
新随笔
联系
订阅
管理
随笔 - 787
文章 - 0
评论 - 17
阅读 -
49008
读数据压缩入门笔记01_数据压缩导读
建立在数据压缩上的世界
合集 - 读数据压缩入门(11)
1.
读数据压缩入门笔记
01_数据压缩导读
2023-05-29
2.
读数据压缩入门笔记
02_二进制和熵
2023-05-30
3.
读数据压缩入门笔记
03_VLC
2023-05-31
4.
读数据压缩入门笔记
04_统计编码
2023-06-07
5.
读数据压缩入门笔记
05_字典转换
2023-06-16
6.
读数据压缩入门笔记
06_上下文转换
2023-06-17
7.
读数据压缩入门笔记
07_自适应统计编码
2023-07-15
8.
读数据压缩入门笔记
08_评价数据压缩
2023-07-22
9.
读数据压缩入门笔记
09_多媒体数据压缩
2023-07-23
10.
读数据压缩入门笔记
10_通用压缩和序列化
2023-07-24
11.
读数据压缩入门笔记
11_读后总结与感想兼导读
2023-07-26
1. 建立在数据压缩上的世界
1.1. 数据压缩技术最让人惊异之处在于,它与过去40年里个人计算的很多重大改变有关,但很少有人知道这一点
1.2. 我们当下生活在其中的这个计算世界,完全建立在数据压缩算法之上
1.3. 图像的压缩
1.3.1. 1978年
1.3.2. 图像语料库
1.3.2.1. 1972年11月《花花公子》杂志中莱娜•瑟德贝里(Lena Söderberg)
1.4. 音乐的压缩
1.4.1. 1996年
1.4.2. WAV
1.4.2.1. MP3
1.4.2.1.1. Napster音乐共享平台
1.4.2.1.2. iPod
1.4.2.1.2.1. iTunes
1.4.2.1.2.2. iPhone
1.5. 视频的压缩
1.5.1. 2001年
1.5.2. YouTube
1.5.2.1. MOV
1.6. 基因图谱
1.6.1. 2008年
1.6.2. 单个基因组序列就包含了大量的数据,仅仅是描述人类基因组成的数据就超过了14GB
1.6.3. BWT是最有效的存储DNA信息的压缩格式,甚至无须解压就能对数据进行操作
1.7. 压缩与经济
1.7.1. 压缩后的文件会变得更小
1.7.1.1. 同样的数据传输所需的时间会变短,相应的费用也会减少
1.7.1.2. 分发者的分发成本会降低,消费者的支出也会减少
2. 克劳德•香农
2.1. 硕士论文题为《继电器与开关电路的符号分析》
2.1.1. 为基于开关的现代电路计算奠定了基础
2.2. 1948年发表了《通信的数学理论》
2.2.1. 论述了发送者怎样对要发送的信息进行编码才能达到最佳效果
2.2.2. 开创了信息论(information theory)这一全新的学术领域
2.3. 发明了一种度量消息所携带信息内容的方法
2.3.1. 信息熵(information entropy)
3. 什么是数据压缩
3.1. 用最紧凑的方式来表示数据
3.2. “在保证信息能恢复的前提下,我们能将消息变得多么紧凑”
3.3. 根据现代信息论的观点,在压缩数据以减少总二进制位数的时候存在一个临界点,如果超过了这个值,我们就不能将压缩后的数据唯一正确地恢复为原来的数据流。
3.3.1. 我们的压缩目标就是尽可能地减少总二进制位数以接近这个临界值,并且不超过这个值
4. 消息编码方式
4.1. 对每一个特定的消息来说,都有一个最佳的编码方式,这里的“最佳”指的是传递消息时用到的字母或者符号(也可以说是二进制位,即信息的单位)最少
4.2. “字母表”与“摩尔斯码”是其中常见的两种
5. 数据压缩思路
5.1. 减少数据中不同符号的数量
5.1.1. 即让“字母表”尽可能小
5.2. 用更少的位数对更常见的符号进行编码
5.2.1. 即最常见的“字母”所用的位数最少
6. 数据压缩考虑因素
6.1. 不同数据的处理方法不同
6.1.1. 压缩一本书中的文字和压缩浮点型的数
6.2. 有些数据必须经过转换才能变得更容易压缩
6.3. 数据可能是偏态的
6.3.1. 夏天的整体气温偏高
6.3.1.1. 高气温出现的频率比接近零度的气温出现的频率高很多
7. 数据压缩算法
7.1. 变长编码(variable-length codes,VLC)
7.2. 统计压缩(statistical compression)
7.3. 字典编码(dictionary encodings)
7.4. 上下文模型(context modeling)
7.5. 多上下文模型(multicontext modeling)
合集:
读数据压缩入门
好文要顶
关注我
收藏该文
微信分享
躺柒
粉丝 -
50
关注 -
0
+加关注
0
0
升级成为会员
«
上一篇:
学系统集成项目管理工程师(中项)系列28_后记
»
下一篇:
读数据压缩入门笔记02_二进制和熵
posted @
2023-05-29 06:40
躺柒
阅读(
74
) 评论(
0
)
编辑
收藏
举报
刷新页面
返回顶部
登录后才能查看或发表评论,立即
登录
或者
逛逛
博客园首页
【推荐】还在用 ECharts 开发大屏?试试这款永久免费的开源 BI 工具!
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
相关博文:
·
读改变未来的九大算法笔记01_数据压缩
·
读数据压缩入门笔记11_读后总结与感想兼导读
·
如何压缩数据?
·
亲自尝试压缩数据
·
第六章 亲自尝试压缩数据 笔记
阅读排行:
·
一个费力不讨好的项目,让我损失了近一半的绩效!
·
清华大学推出第四讲使用 DeepSeek + DeepResearch 让科研像聊天一样简单!
·
实操Deepseek接入个人知识库
·
CSnakes vs Python.NET:高效嵌入与灵活互通的跨语言方案对比
·
Plotly.NET 一个为 .NET 打造的强大开源交互式图表库
公告
昵称:
躺柒
园龄:
2年1个月
粉丝:
50
关注:
0
+加关注
<
2025年2月
>
日
一
二
三
四
五
六
26
27
28
29
30
31
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
1
2
3
4
5
6
7
8
搜索
常用链接
我的随笔
我的评论
我的参与
最新评论
我的标签
合集
学信息系统项目管理师第4版(35)
学系统集成项目管理工程师(中项)(43)
读高性能MySQL(第4版)(21)
读发布!设计与部署稳定的分布式系统(第2版)(34)
随笔及总结(26)
读改变未来的九大算法(10)
读数据压缩入门(11)
读C#代码整洁之道(8)
读编程与类型系统(12)
读函数式编程思维(6)
读Java8函数式编程(9)
读Java实战(第二版)(20)
读Java性能权威指南(第2版)(31)
读SQL进阶教程(17)
选读SQL经典实例(23)
读SQL学习指南(第3版)(13)
读图数据库实战(11)
读程序员的制胜技(15)
读像火箭科学家一样思考(16)
读程序员的README(19)
读算法霸权(13)
读元宇宙改变一切(14)
读AI3.0(10)
读千脑智能(13)
读十堂极简人工智能课(9)
读人工不智能:计算机如何误解世界(10)
读算法的陷阱:超级平台、算法垄断与场景欺骗(20)
读所罗门的密码(21)
读天才与算法:人脑与AI的数学思维(26)
读人工智能时代与人类未来(19)
读AI未来进行式(12)
读AI新生:破解人机共存密码(18)
读人工智能全传(16)
读写给大家的AI极简史(7)
读零信任网络:在不可信网络中构建安全系统(21)
读软件开发安全之道:概念、设计与实施(17)
读软件设计的要素(7)
读构建可扩展分布式系统:方法与实践(16)
读数据湖仓(9)
读数据工程之道:设计和构建健壮的数据系统(34)
读数据质量管理:数据可靠性与数据质量问题解决之道(20)
读数据保护:工作负载的可恢复性(31)
读量子霸权(18)
读算法简史:从美索不达米亚到人工智能时代(15)
读当我点击时,算法在想什么?(7)
读DAMA数据管理知识体系指南(3)
更多
随笔档案
2025年2月(24)
2025年1月(31)
2024年12月(31)
2024年11月(30)
2024年10月(31)
2024年9月(30)
2024年8月(31)
2024年7月(31)
2024年6月(30)
2024年5月(31)
2024年4月(30)
2024年3月(31)
2024年2月(29)
2024年1月(31)
2023年12月(31)
2023年11月(30)
2023年10月(31)
2023年9月(30)
2023年8月(31)
2023年7月(31)
2023年6月(30)
2023年5月(31)
2023年4月(31)
2023年3月(36)
2023年2月(28)
2023年1月(26)
阅读排行榜
1. C#代码整洁之道读后总结与感想(599)
2. 选读SQL经典实例笔记01_检索和排序(369)
3. 读C#代码整洁之道笔记01_C#的编码标准和原则(311)
4. 读C#代码整洁之道笔记04_重构C#代码识别代码坏味道(309)
5. 学信息系统项目管理师第4版系列02_法律法规(268)
评论排行榜
1. 2023年1月随笔(11)
2. 2023年10月随笔之婚宴趣事多(2)
3. 读高性能MySQL(第4版)笔记12_查询性能优化(下)(2)
4. 读Java性能权威指南(第2版)笔记18_垃圾回收E(2)
推荐排行榜
1. 读高性能MySQL(第4版)笔记01_MySQL架构(上)(2)
2. 选读SQL经典实例笔记01_检索和排序(2)
3. 读软件设计的要素01概念(1)
4. 读AI未来进行式笔记01深度学习(1)
5. 读所罗门的密码笔记01_当人类遇见机器(1)
最新评论
1. Re:2023年10月随笔之婚宴趣事多
@gz4621 wondershare mindmaster...
--躺柒
2. Re:2023年10月随笔之婚宴趣事多
大神 思维导图用的什么软件制作的?
--gz4621
3. Re:读高性能MySQL(第4版)笔记12_查询性能优化(下)
@东围居士 建议读新版。...
--躺柒
4. Re:读高性能MySQL(第4版)笔记12_查询性能优化(下)
第4版相比第3版好像缩减了好多内容?楼主推荐第3版还是第4版
--东围居士
5. Re:读Java性能权威指南(第2版)笔记18_垃圾回收E
@屠炉 没有用第三方工具,手动的。 有几个平台直接支持markdown导入,只是要调整一下图片上传即可。...
--躺柒
点击右上角即可分享
支持DeepSeek的编程助手
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 一个费力不讨好的项目,让我损失了近一半的绩效!
· 清华大学推出第四讲使用 DeepSeek + DeepResearch 让科研像聊天一样简单!
· 实操Deepseek接入个人知识库
· CSnakes vs Python.NET:高效嵌入与灵活互通的跨语言方案对比
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库