大数据下的用户行为分析

    1. Consumer behaviour is the study of when,why,how and where people do or don’t buy a product。 
      用户行为一般指用户通过中间资源,购买、使用和评价某种产品的记录。同时辅以用户、资源、产品自身及环境的信息。 
      用户行为记录一般可以表示一组属性的集合:{属性1,属性2,…,属性N}
    2. 用户行为分析主要是研究对象用户的行为。数据来源包括用户的日志信息、用户主体信息和外界环境信息。通过特定的工具对用户在互联网/移动互联网上的行为进行记录,记录的信息通常称为用户日志。 
      数据内容: 
      (1)网站日志:用户在访问某个目标网站时,网站记录的用户相关行为信息; 
      (2)搜索引擎日志:搜索引擎日志系统所记录的用户在搜索引擎上的相关行为信息; 
      (3)用户浏览日志:通过特定的工具和途径记录用户所记录的用户在该搜索引擎上的相关行为信息; 
      (4)用户主体数据:如用户群的年龄、受教育程度、兴趣爱好等; 
      (5)外界环境数据:如移动互联网流量、手机上网用户增长、自费套餐等; 
      数据特点: 
      (1)大数据量/海量数据,big data; 
      (2)实时分析/准实时分析、离线分析; 
      (3)由于用户日志包含大量用户个人信息,为避免涉及过多的用户隐私,日志工具通常对用户个人信息进行加密,不涉及具体用户行为的细节内容,保护用户隐私; 
      (4)日志信息通常含有较多的噪音,因此,基于个人行为信息分析得到的结论常常存在着很大的不可靠性。
    3. 用户行为分析平台主要面临海量数据处理困难、分析模型算法复杂、建设和运营成本高昂等方面的技术难点和挑战。 
      海量数据处理困难: 
      (1)问题:面临TB甚至PB级的海量数据,传统关系数据库存储尚可,但对OLAP分析效仿低下; 
      (2)难点:如何可实现可扩展的数据存储、灵活快捷的数据访问? 
      (3)思路:利用Nosql数据库解决大数据存储,通过水平扩展读写负载提高访问性能; 
      分析模型算法复杂: 
      (1)问题:分析需要运用预警预测、聚类、协同过滤等数据挖掘算法,算法的编程复杂度和计算复杂度都非常大; 
      (2)难点:如何实现分析模型,并提供实时高速的复杂分析; 
      (3)思路:改造开源的数据挖掘模型库,并运用Hadoop等并行计算框架; 
      建设和运维成本高昂: 
      (1)问题:传统数据库和分析软件进行海量数据分析将导致天价的软件授权许可费用;外部数据分析服务同样价格昂贵,并且面临安全性和灵活性局限; 
      (2)难点:如何低成本高效率的建设和运维系统? 
      (3)思路:基于可靠的开源解决方案构建独立自主经济灵活的分析平台。
    4. Hadoop是基于Google有关大数据的论文实现的开源项目,最初的框架由Doug Cutting在2005年提出,目前是由Apache维护的开源项目。从最初到现在,Hadoop系统在7年中开发完成了一系列重要的子项目,已经形成了一个涵盖数据存储、管理和分析功能的较为完整的大数据生态系统,成为大数据存储与处理领域地位最重要、应用最广泛的开源框架。 
      核心组件: 
      (1)MapReduce: 
      · Hadoop的分析式并行处理框架; 
      · 实现对HDFS上海量数据的批量分析; 
      (2)HDFS: 
      · Hadoop的一个分布式文件系统; 
      · 高容错性,部署在低廉商业硬件; 
      · 提供高吞吐量,适合批量处理; 
      Hadoop是运行在大量通常计算单位上提供海量数据存储与并行计算的平台框架: 
      · 基于x86集群水平可扩展; 
      · 基于MapReduce的并行计算能力; 
      · 设计规模:PB级的数据量,数千台计算节点;
    5. Hadoop的优势: 
      (1)高可靠性: 
      · 按位存储和处理数据的能力值得信赖; 
      (2)高扩展性: 
      · 可以管理数以千计的存储和计算节点; 
      (3)高性能: 
      · 实现数千计算节点的并行计算; 
      (4)高容错性: 
      · 自动备份和自动失败任务重起; 
      Hadoop的不足: 
      (1)性能可优化: 
      · 与硬件的理论性能存在差距,具有优化空间; 
      (2)可扩展性和可靠性: 
      · 受单一Namenode,单一Jobtracker的设计严重制约,存在明显的单点故障源; 
      · 单一的Namenode的内容容量和性能有限,使得Hadoop集群的节点数量被限制到2000个左右,能支持的文件系统被限制在10-50PB,最多支持的文件数量大约为1.5亿; 
      (3)欠缺各种企业特性: 
      · 企业的个性化需求、定制化开发和可靠的运营维护服务; 
      企业版Hadoop改进主要方向: 
      (1)消除单点故障制约; 
      (2)改进MapReduce; 
      (3)完善数据管理和数据源整合; 
      (4)镜像、快照等容灾能力; 
      (5)可靠的服务支持;
    6. 数据挖掘算法的编程复杂度和计算复杂度都非常大,往往称为制约分析项目按期完成的瓶颈,精细化运营分析平台利用支持Hadoop并行计算框架的开源数据挖掘模型数据库Mahout,实现了数据挖掘算法的快速实施和高效表现。基于这些经验,未来我们将研究整合其他的开源算法库(如Weka和R等),以及商业算法库,以保证分析的精确性和性能。 
      利用Mahout的聚类和协同过滤算法库的实现价值评估分析和智能推荐引擎。
    7. 用户行为分析平台建立了大量的分析主题,分析结果的呈现能力对平台的应用效能影响重大。利用研制管理决策支持系统的经验,我们可以提供灵活可制定的报表编制和数据展现方式,并建立了主动推送和移动跨平台访问结合的数据访问能力,提高分析材料的生成和呈现速度。
posted @ 2018-09-11 09:03  rousson  阅读(331)  评论(0编辑  收藏  举报