这里主要是对paper的笔记,和一些将访问模式应用到实际video CDN系统设计的考虑
【Key new observations】
- with 77-79%of media sessions being less than 10 min long, 7-12% of the sessions being 10-30 min, and 6-13% ofsessions continued for more than 30 min.
对于对象的cache有两种选择:全部缓存,和部分缓存。部分缓存比完整对象复杂得多,但是看看它能够带来的好处: 有不少的session都是很短的,这里10分钟以下的session达到了77%以上,这样,对于影片之类的大对象的部分缓存,就意味着更加的节省cache资源,而且使用有限的空间,可以得到更高的命中率
- Most of the incomplete sessions (i.e. terminated by clients before the video was fnished) are accessing the initial segments of media file.
缓存影片头部比缓存整个片子更加划得来,特别是对于冷片,访问头部的session会更多(看了开头就不想看了)
- high locality of accesses: 14-30% of the files accessed on the server account for 90% of the media sessions
这里都是常识了,常见的20/80规律,不过有些人居然把20/80一个定性的东西当成一个定量的指标就比较杯具了
- there is a significant number of files that are rarely accessed (16% to 19% of the files are accessed only once)
对于这些影片如何优化cache,是一个可以提高的地方,关键是这部分影片的比例有多少。
- Zipf Like distribution
这个我也统计过,参见这里(http://blog.lmtw.com/b/peon/archives/2006/39703.html)
IPTV几个site都是a=0.6左右,比paper的a值低很多。这种情况下,20的内容只能覆盖50的sessions
- Accesses to the new files constitute most of the accesses in any given month
paper里面的enterprise环境会加剧这个倾向,毕竟一些企业的多媒体对象实时性很强,和新闻差不多。但是对于IPTV影视,这个也是成立的。可惜我这里没有更好的数据。一些site会缺省的把新片做一个PUSH,这是值得提倡的
- For both workloads, 51-52% of accesses to media files occur during the first week of their introduction.
说明大部分新片也会很快变冷,这个充分说明了我2002做的时间加权算法的优越性了,否则统计一个时间窗或者是累计点击次数,都是对于影片的冷热变化趋势不够敏感的
------------------------------------------------------------------------------------
- 访问时长
- Zipf统计图
- New Files 访问占一个月访问的比例
下面是我的其他博客:
博客园,写一些工作和学习的笔记: http://www.cnblogs.com/peon/
博客堂,开发方面的一些文章:http://blog.joycode.com/peon/
流媒体博客,流媒体方面的一些文章:http://blog.lmtw.com/b/peon/