第二章-数据的收集

第一章已经对于统计学给出了一个大体的描述，并且知晓了统计学能够给我们带来什么样的变化。从本章开始我们就尝试按照统计学的定义去查看每一个过程到底做了些什么事情。本章的侧重点就是在于数据的收集。

对于互联网来说，数据收集过程貌似是一个不太需要考虑的问题。因为对于任何一个互联网产品线来说，从产品分析和评估的角度来看，就是两个信息：

用户的注册信息，因产品的不同而表现出较大的差异，有些产品用户个人信息很丰富，在user profile用户属性表征上很详细且准确。实名制也可以完善这部分的信息。目前来说，互联网很多公司这个信息是比较全且靠谱的，他们对于用户的定位就会比较准确。因此用户维度就会有发展的方向。

用户的访问信息，不用说就是用户参与后的产品日志信息，这部分信息是可以提炼出基于产品的很多用户使用习惯和用户的需求满意度划分。因此，产品维度就会有发展的方向。

只有很好的将产品和用户结合才能够走的更远。

当然如果用户注册信息这个收集不到的话，那么就可以变相的通过用户的访问信息进行特征提取，在一定的准确率和召回率的前提下，训练学习用户属性信息。

目前互联网做产品在个性化方面，实际上走的是基于全体用户特征的个性化推荐。基于全体用户的访问特征对产品进行定位。而如果能够分析产品特点和用户群的关系，那么这就是一个在互联网领域巨大的跨进，我们说这是基于用户群特征的个性化推荐。如果这个能做起来，那就很赞了！

目前做评估还主要是围绕着产品特征去考虑，如果能结合用户特征一起分析那就好了。

当然，在数据收集方面互联网还有一个较好的优势：就是可以采用实验组和对照组进行实验数据对比，然后通过抽样调查进行分析，利用样本推断总体的方式考核一个新功能上线后的效果和用户评价。这也是在做产品评估方面需要着重采用的一种方式。即让想法直接在线上表征出来，小流量实验的必要性就显得非常重要了。

posted on 2012-02-22 19:12 林语堂的生活阅读(166) 评论(0) 编辑收藏举报

刷新页面返回顶部

林语堂的生活