大数据启蒙二：数据收集 - alun-chen

公告

一、源头

1、社交网络

大部分数据都源于社交网络，互联网2.0时代到来后社交网络得到指数型增长，随之生产了大量数据。

社交网络平台每天都会产生海量的数据，包括用户发布的内容、用户之间的互动、个人资料更新等。这些数据为研究人类行为模式、市场趋势分析、公共意见监测等提供了丰富的资源。

数据类型包括文本数据、图像、视频、互动、位置、用户资料等。其中文本数据包括用户发布的状态更新、博客、文章等。互动数据为点赞、转发、评论、聊天类型。位置数据是社交网络中用户分享地理位置、店铺位置等。用户资料数据用户个人信息，如年龄、性别、代号、兴趣爱好等。

社交网络平台主要包括facebook、twitter、weibo、weixin等。这些平台为社交网络生产了数据。

社交网络的应用案例：

1）分析社交媒体讨论话题和情感倾向，从而了解消费者对产品和服务的看法。如某某烧烤、如南方小土豆。

2）机构或组织可以通过社交媒体的监测，从而了解人民群众对公共事件的反应。如新闻媒体置顶某条新闻。

3）社交网络数据属于更加个性化数据，提取个人数据，从而可提供个性化推荐。如广告联盟，经常推送个性化广告或者某东某宝个性化链接。如反面教材大数据杀熟。

2、电子商务平台

电商平台改变了80、90、00后中国几代人，从感官上从前摸得到看得着，现靠感觉。电商是20世纪发展最快的产物之一，积累了大量的消费者，电商也造就了某首富。

电商数据类型可分为交易数据、行为数据、产品数据、用户反馈数据、物流数据。这些数据包装着电商的高速运转。

电商平台知名的有国内的PDD、taobao、jd，国外的amazon、ebay。

电商的应用案例：

1）通过分析用户的购买数据、浏览行为，推荐商品。基本上每个平台都这样做。

2）分析销售数据、市场趁势数据，更有效地管理库存。

3）分析电商平台大数据，洞察市场趁势，发现新机会。

3、金融市场

金融市场是大数据应用最提现的地方，金融靠着钱快速生钱，涵盖了股票、外汇等市场，这些市场每天产生大量数据，包括交易数据、行情数据、金融报告数据。这些数据对大部分人都是宝贵的数据。

数据来源包括证券交易所、央行、新闻媒体。

金融市场的应用案例：

1）通过分析交易数据、市场行情，评估股票及市场的表现及预期。

2）通过分析历史数据，进行风险管理、投资组合。

3）利用经济指标、金融市场数据来分析经济趁势和制定政策。如zf、经济分析专家。

4、物联网(IoT)设备

IoT相信大家都很熟悉了，前段时间火了一大把。IOT是通过互联网将各种传统的物理设备连接起来，用这些设备能够收集和交换数据。IOT主要依赖传感器技术，随着其成本的降低，越来越多的设备能够连接到互联网，形成了一个庞大的数据源。智能家居是其应用之一，也是成功应用的产品。

这些设备不仅包括智能家居产品，如智能灯泡、智能插座、智能恒温器等，还包括工业传感器、汽车、公共基础设施等，几乎覆盖了生活和工作的所有方面。

5、卫星与遥感技术

卫星与遥感技术比较遥远，它通过以地球轨道上的卫星捕获地表的图像和其他数据，从而获取自然和人造特征信息。

数据类型包括光学成像数据、雷达成像数据、光谱数据、温度数据、位置数据等，其中位置数据是民用最多的数据类型。通过GPS手机定位，查看定位信息来达到便利生活的目的，如点外卖、附近小店、导航等。再者如通过分析遥感数据，检测深林砍伐、沙漠进程等环境问题；如分析自然灾害数据，评估未来可能发生的自然灾害。

二、收集的工具

2.1 网络爬虫

网络爬虫工具一般分几个部分：URL管理器、下载器、解析器、存储器。URL管理器抓取目标URL。下载器负责下载网页内容。解析器是核心部件，用于解析目标文本、url、图片、视频等信息，提取&保存到我们的存储器之中。解析器也是最难的部分，不同的目标URL有不同的内容、不同的展示方式、不同的防刷机制。

常用的网路爬虫工具包括Scrapy。一般预防爬虫的方法有：遵从规定的robots.txt、动态页面渲染、更改网络结构、设置访问频率、验证码、WAF、API秘钥和令牌等。破解这些方法有不遵从robots.txt但会发生法规问题、爬取渲染后的内容、使用更加灵活的解析器如CSS、动态源IP、OCR技术、伪造请求头、动态获取秘钥和令牌。

2.2 日志文件分析

日志文件分析更多是熟悉系统内部信息，对内部信息的爬取。一般使用工具有ELK、Prometheus+Grafana，收集日志步骤为定义日志策略 -> 选择日志工具 -> 集成日志记录 -> 日志存储 -> 日志分析。

日志文件优点在于快速定位问题、对问题进行诊断、爬虫更加透明便于监控、优化性能。但会消耗大量的存储资源、少量的运行时环境资源和管理成本。

2.3 实时数据流处理工具

实时收集目前是各大公司的主流，包括kafka、flink、storm、samza、spark streaming等。其中轻量级的使用kafka中的流处理，复杂并要求实时场景较多的使用flink。

三、数据收集流程

1、需求分析

确定收集的数据源、数据类型。

2、数据源识别

识别数据的源头，如公开的数据、内部数据、日志数据、电商数据、网页数据等。

3、数据采集

根据源头，对数据使用工具进行采集。

4、数据预处理

采集到的数据进行清洗、去重、错误筛选、脱敏、格式化等处理，让数据更加清爽。

5、数据存储

处理后存储数据，为后续流程做准备，这时候存储的到数据一般在ods层。

四、数据收集问题

问题一：数据质量问题。

在收集过程中，数据质量是必须遇到的问题，因对数据不严格处理导致的问题。再加上数据经常会变化，永远不知道这个数据以后的值会是怎么样的，所以这是一个大量调研的工作，多做判断、多写共用逻辑处理。所以遇到此问题时，执行严格的数据处理流程，识别并尽可能地自动化修正数据。

问题二：数据结构和格式不一样。

数据结构、格式因源头不同，导致不一致。这时在数据预处理的时候进行数据结构调整，实行标准化的操作转换。

问题三：数据采集效率低

数据源头数据量大，会导致数据延迟、数据中断等问题。这时候可使用分布式处理的采集工具、源头读从库、并行处理等解决办法。

问题四：数据存储量大，成本高

在大数据中，数据存储量会越来越大，成本也会越来越高。每天数据都大量进行存储，所以一般企业不玩大数据。对大量数据存储，一般企会对冷数据进行归档、数据压缩处理，还有的对数据尽量减少分层，ods层数据有过期时间如存储30天。

问题五：实时处理难度大

自从flink流行后，有稳定的社区资源保障，难度变小了。在flink使用过程中，一般遇到状态管理、大规模状态管理的性能问题、时间管理问题等。对于状态管理可利用状态管理api及定期检查来保证；对于大规模状态管理的性能问题如使用增量检查点和高性能数据库存储状态后端；对于时间管理问题管理好时间窗口和触发器。

可以关注本人的公众号，多年经验的原创文章共享给大家。

posted on 2024-04-16 17:24 alun-chen 阅读(136) 评论(0) 收藏举报

刷新页面返回顶部