这里主要是对paper的笔记,和一些将访问模式应用到实际video CDN系统设计的考虑

【Key new observations】

  • with 77-79%of media sessions being less than 10 min long, 7-12% of the sessions being 10-30 min, and 6-13% ofsessions continued for more than 30 min.

对于对象的cache有两种选择:全部缓存,和部分缓存。部分缓存比完整对象复杂得多,但是看看它能够带来的好处: 有不少的session都是很短的,这里10分钟以下的session达到了77%以上,这样,对于影片之类的大对象的部分缓存,就意味着更加的节省cache资源,而且使用有限的空间,可以得到更高的命中率

  • Most of the incomplete sessions (i.e. terminated by clients before the video was fnished) are accessing the initial segments of media file.

缓存影片头部比缓存整个片子更加划得来,特别是对于冷片,访问头部的session会更多(看了开头就不想看了)

  • high locality of accesses: 14-30% of the files accessed on the server account for 90% of the media sessions

这里都是常识了,常见的20/80规律,不过有些人居然把20/80一个定性的东西当成一个定量的指标就比较杯具了

  • there is a significant number of files that are rarely accessed (16% to 19% of the files are accessed only once)

对于这些影片如何优化cache,是一个可以提高的地方,关键是这部分影片的比例有多少。

  • Zipf Like distribution

这个我也统计过,参见这里(http://blog.lmtw.com/b/peon/archives/2006/39703.html)

IPTV几个site都是a=0.6左右,比paper的a值低很多。这种情况下,20的内容只能覆盖50的sessions

  • Accesses to the new files constitute most of the accesses in any given month

paper里面的enterprise环境会加剧这个倾向,毕竟一些企业的多媒体对象实时性很强,和新闻差不多。但是对于IPTV影视,这个也是成立的。可惜我这里没有更好的数据。一些site会缺省的把新片做一个PUSH,这是值得提倡的

  • For both workloads, 51-52% of accesses to media files occur during the first week of their introduction.

说明大部分新片也会很快变冷,这个充分说明了我2002做的时间加权算法的优越性了,否则统计一个时间窗或者是累计点击次数,都是对于影片的冷热变化趋势不够敏感的

------------------------------------------------------------------------------------

  • 访问时长

  • Zipf统计图

  • New Files 访问占一个月访问的比例

 

 

菊子曰 本文用菊子曰发布
 posted on 2011-02-06 18:30  加菲猫  阅读(375)  评论(0编辑  收藏  举报