系统设计-电商排名

销售排名:大型电子商务公司希望列出最畅销的产品,整体和类别。例如,一款产品可能是整体销量排名第1056位的产品,但在“运动器材”一栏中排名第13位,在“安全:·”一栏中排名第24位。描述你将如何设计这个系统。

1.分析步骤

  • 步骤1: 确定问题的范围
    • 首先,我们需要定义我们正在构建什么
      • 我们假设只要求我们设计与此问题相关的组件,而不是整个电子商务系统。
      • 我们还应该定义销售排名的含义。
        • 它是所有时间的总销售额吗?
        • 上个月的销售额是多少?
        • ...
  • 步骤2:做出合理的假设
    • 我们假设统计数据不需要是100%最新的。
    • 对于最受欢迎的项目,精度是很重要的,但是对于不太受欢迎的项目,有一定程度的误差也是可以的。
    • 我们假设数据应该每小时更新一次(对于最流行的项目),但是数据的时间范围不需要精确到最后七天(168小时)。如果有时超过150个小时,也没关系。
    • ...
  • 步骤3:绘制主要组件


  • 步骤4: 确定关键问题
    • 如果查询和写非常昂贵,我们可以考虑完全放弃数据库,只使用日志文件。这将允许我们利用MapReduce之类的东西。

      • 我们将运行频繁的作业,根据产品ID和时间范围将文件合并在一起,以便最终将给定一天(或可能一个小时)内的所有购买组合在一起
    • 要获得每个类别中最畅销的产品,只需对每个目录进行排序
    • 我们将运行频繁的作业,根据产品ID和时间范围将文件合并在一起,以便最终将给定一天(或可能一个小时)内的所有购买组合在一起
      • 我们如何得到整体排名?有两种很好的方法:
        • 我们可以将一般类别视为另一个目录,并将每次购买写入该目录。
        • 或者,因为我们已经按照每个类别的销售量顺序对产品进行了排序,所以我们还可以进行N-way merge来获得总排名

2.问题延伸

  • 你认为你会在哪里遇到下一个瓶颈?你会怎么做?
  • 如果还有子类别呢?所以项目可以列在“体育”和“体育器材”下面(甚至“运动”>“运动器材”>“网球”>“球拍”)?
  • 如果需要更准确的数据怎么办?如果所有产品都需要在30分钟内准确无误,该怎么办?
posted @ 2019-10-29 12:05  一棵小草77  阅读(565)  评论(0编辑  收藏  举报