机器数据的价值 - Web 访问日志和数据库审计日志

计算机数据

大量的数据流,不断增长的来源,蕴含着巨大的价值

在 Splunk,我们大量谈及计算机数据。这些数据是指在数据中心、“物联网”和互联设备世界中运行的所有系统产生的数据。其中包括支撑组织的应用程序、服务器、网络设备、安全设备和远程基础结构所产生的全部数据。

计算机数据包含明确的记录,其中涉及您的客户、用户、交易、应用程序、服务器、网络、工厂机器等的所有活动和行为。它不仅仅包含日志,还包括配置数据、API 和消息队列数据、更改事件、诊断命令输出和呼叫详细记录、远程设备传感器数据等等。

Splunk 软件用户知道有成千上万种不同的计算机数据格式。以有意义的方式来分析这些数据,对于诊断服务问题、检测复杂的安全威胁、了解远程设备的健康状况以及展示合规性至关重要。

以下是一些最重要的计算机数据源,以及它们的具体内容。记住,这个列表仅仅是起点。每个环境都有其独特的计算机数据空间。哪里会是您尚未涉足的计算机数据机会?


 

 

应用程序日志

大多数内部开发和打包的应用程序通常通过日志框架(如 log4j 或 log4net)、应用程序服务器(如 WebLogic、WebSphere 和 JBoss)内置的日志服务或 .Net、PHP 等来写入本地日志文件。这些文件对开发人员和应用程序支持人员日常调试生产应用程序至关重要。它们通常还是报告业务和用户活动以及发现欺诈情况的最佳方法,因为其中包含所有交易细节。如果开发人员将计时信息写入日志事件,它们还可以用来监视并报告应用程序性能。

业务流程日志

复杂事件处理和业务流程管理系统日志是业务和 IT 相关数据的宝库。这些日志通常包含多种不同渠道(如 Web、IVR/联络中心或零售)中客户活动的明确记录。它们可能包含客户购买记录、帐户变化和故障报告。计算机数据与应用程序、CDR 和 Web 日志相结合,可用于实现全面的业务活动监视。

呼叫详细记录

呼叫详细记录 (CDR)、计费数据记录、事件数据记录都是电信和网络交换机所记录事件的名称。CDR 包含经过交换机的呼叫或服务的有用详细信息,如发起呼叫的电话号码、接收呼叫的电话号码、呼叫时间、呼叫时长、呼叫类型等。随着通信服务转移到基于 Internet 协议的服务,这些数据也被称为 IPDR,其中包含诸如 IP 地址、端口号等详细信息。这些文件的规格、格式和结构差别很大,要跟上所有这些序列向来都颇具挑战性。然而,它们包含的数据对于计费、收入保证、客户保证、合作伙伴结算、营销情报等极为重要。Splunk 软件可以快速地为这些数据建立索引,并将它们与其他业务数据相结合,以使用户能够从这些丰富的使用信息中获得新的深入见解。

点击流数据

在点击流数据中捕获用户在 Internet 上的活动。这可以提供有关用户的网站和网页活动的深入见解。这些信息对于可用性分析、营销和一般性研究非常有价值。这些数据的格式是非标准的,而且操作可能在多个位置中记录,如 Web 服务器、路由器、代理服务器、广告服务器等。现有监视工具仅查看来自特定来源的部分数据视图。现有的网站分析和数据仓库产品通常仅对数据采样,缺少完整的行为视图,并且不提供实时分析。

配置文件

要了解基础结构的设置情况,实际、有效的系统配置具有不可替代的作用。当调试过去发生过且将来可能再次发生的故障时,需要用到过去的配置。当配置发生改变时,需要知道更改内容和时间、更改是否经过授权,以及是否有成功的攻击者在系统中植入后门、时间炸弹或其他潜在威胁。

数据库审计日志和表

数据库包含一些最敏感的公司数据,如客户记录、财务数据、患者病历等。要弄清谁在何时访问或更改了哪些数据,获得所有数据库查询的审计记录非常重要。数据库审计日志还有助于弄清应用程序对数据库的使用方式以优化查询。某些数据库采用审计记录日志文件,而另一些数据库则是维护审计表,并可通过 SQL 进行访问。

文件系统审计日志

有些敏感数据不在数据库中,而在文件系统中。在诸如医疗保健等行业中,最大的数据泄露风险是位于共享文件系统中的消费者记录。不同的操作系统、第三方工具和存储技术在文件系统级别上提供了不同的敏感数据读取访问审计选项。这些审计数据是监视和调查敏感数据访问的重要数据源。

管理和日志 API

许多供应商越来越多地通过标准化和专有 API(而不是记录到文件)来显示重要管理数据和记录事件。Checkpoint 防火墙通过 OPSEC Log Export API (OPSEC LEA) 来记录日志。诸如 VMware 和 Citrix 等虚拟化供应商通过自有 API 来显示配置、日志和系统状态。

消息队列

消息队列技术(如 JMS、RabbitMQ 和 AquaLogic)用于在基于发布/订阅模式的服务和应用程序组件之间传输数据和任务。订阅这些消息队列是在复杂的应用程序中调试问题的好方法,因为您可以清楚地看到链中下一个组件从前一个组件接收到的内容。另外,消息队列越来越多地被用作应用程序日志架构的骨干。

操作系统指标、状态和诊断命令

操作系统可以通过命令行实用工具(例如 Unix 和 Linux 上的 ps 与 iostat,以及 Windows 上的性能监视器)来显示如 CPU 和内存利用率等关键指标和状态信息。这些数据通常被服务器监视工具利用,但很少存储,尽管它们对于故障排除、分析趋势以发现潜在问题和调查安全事故可能很有价值。

数据包/流量数据

由网络生成的数据使用诸如 tcpdump 和 tcpflow 等工具进行处理,以生成 pcap 或流量数据以及其他有用的数据包级和会话级信息。这些信息对于处理那些表明网络可能受到威胁或成为远程攻击对象的性能降级、超时、瓶颈问题或可疑活动等是必需的。

SCADA 数据

监视控制与数据采集 (SCADA) 是一种工业控制系统 (ICS),它们从诸如能源、交通、石油和天然气、供水和废物控制等行业的设备中收集并分析实时数据。这些系统生成有关组件状态、运行、使用和通信等的大量数据。这些数据可以用来确定 SCADA 基础结构中的趋势、模式和异常情况,并用于产生客户价值。例如,捕获智能电网电表数据可以使客户能够通过工具、程序和服务更好地了解其用电情况,以有针对性地帮助他们节能、省钱和减少对环境的影响。

传感器数据

不断扩大的传感器设备网络生成基于监测环境条件(如温度、声音、压力、功率、水位等)的数据。通过收集、汇总和分析这些数据并采取相应行动,将产生广泛的实际用途,其示例包括:水位监测、机器运行状态监测和智能家居监控。

Syslog

来自您的路由器、交换机和网络设备的 Syslog 记录了网络连接状态、关键网络组件故障、性能和安全威胁。它是计算机数据日志记录的标准。接触这些数据意味着进入广泛的各类设备以执行故障排除、分析、安全审计。

Web 访问日志

Web 访问日志报告 Web 服务器处理的每个请求 -- 客户端 IP、请求的 URL、引用的 URL,以及有关请求成功与否的数据。它们最常被处理用来生成营销相关的网站分析报告,如每日访客计数、请求最多的网页等。还可以定制以包括诸如会话 ID 或自定义 HTTP 标头等内容。

它们的重要性还体现在可作为调查用户报告问题的起点,因为失败的请求日志能够确定准确的出错时间。Web 日志相当标准化且结构合理。唯一的挑战是其巨大的数量,繁忙的网站每天通常会经历数十亿次的点击量。

Web 代理日志

几乎所有为其员工、客户或访客提供 Web 访问的企业、服务提供商、机构和政府组织都会使用某种类型的 Web 代理来控制和监视访问情况。Web 代理记录用户通过代理发出的每个 Web 请求。其中可能包含公司用户名和点击的 URL。这些日志对于监视和调查“服务条款”滥用或公司网站使用政策至关重要,并且也是有效监视和调查数据泄露的重要组成部分。

Windows 事件

Windows 存储了有关 IT 环境、使用模式和安全状况的丰富信息。所有信息都存储在 Windows 事件日志应用程序、安全和系统上。这些日志对于了解组织的健康状况至关重要,并且可以帮助检测业务关键型应用程序、安全信息和使用模式相关问题。

posted @ 2016-05-10 12:51  supernebula  阅读(1645)  评论(0编辑  收藏  举报