油气大数据分析 第一章 软计算基础(第四、五、六节)
1.4. SEMMA过程
SEMMA将数据挖掘定义为对大量数据进行抽样、探索、修改、建模和评估以揭示多元系统中隐藏模式和关系的过程。数据挖掘过程适用于各种行业,并为O&G垂直领域的各种业务问题提供方法论,例如最大化井位、优化生产、确定最大采收率、确定非常规油藏中的最佳水力压裂策略、油田分割、风险分析、泵故障预测和井组合分析。
让我们详细介绍SEMMA数据挖掘过程:
- 通过使用一个或多个数据表提取和准备用于模型构建的数据样本来对数据进行采样。采样包括定义或子集数据行的操作。样本应该足够大以有效地包含重要信息。由于只有在分析所有数据时才能发现隐藏的模式和趋势,因此最好在探索步骤中包含完整而全面的数据集。软件限制可能会排除这种理想情况。
- 通过搜索预期关系、意外趋势和异常来探索数据,以获得理解和洞察力的想法,暗示值得建模的假设。
- 通过创建、选择和转换变量来修改数据,以将模型选择过程集中在最有价值的属性上。这将模型选择过程集中在那些相对于目标函数或目标变量显示重要属性的变量上。
- 通过使用分析技术对数据进行建模,以搜索可靠地预测所需结果的数据组合。
- 通过评估数据挖掘过程中发现的有用性和可靠性来评估数据。比较不同的模型并对这些模型进行统计区分和分级,以确定在不确定性下交付的概率结果的最佳范围。
重要的是要记住SEMMA(图1.3)是一个过程,而不是一种方法。因此,SEMMA与IT行业中的各种数据挖掘方法完全兼容。
图1.3数据挖掘工作流的SEMMA流程
1.5. 高性能分析
高性能分析使O&G公司在参与新企业时能够更加灵活和自信地进行决策,从海啸数据中创造新价值。可以快速评估最具挑战性的领域,从而产生具有影响力的见解以转变其运营。
借助高性能分析,您可以实现以下目标:
- 获得在不断减少的机会窗口中做出决策所需的及时洞察力。
- 发现复杂问题的精确答案。
- 识别未识别的增长机会。
- 实现大大提高的性能。
在大数据时代,石油和天然气公司依赖于对孤立地球科学社区中以更频繁的速率收集的数据量和种类呈指数增长的日益复杂的分析。来自配备井下传感器的智能井的数据速度正在给上游思维带来巨大压力。我们如何从原始数据中提取最大的知识并培养优化的信息?我们如何实施质量控制工作流程来过滤噪声和异常值、估算缺失值以及规范化和转换数据值?
我们必须努力为确定性和随机工作流准备一个强大的不同数据集合。重要的是要理解,支撑本书哲学的教导并没有偏离我们地球物理学、地质学、石油和油藏工程机构根深蒂固的传统解释,而是简单地强调基于数据的重要补充,从而产生隐藏的秘密。混合方法是最佳的,结合两种思想流派。
1.5.1. 内存分析
内存分析支持大数据分析工作流,以不受约束的方式解决复杂的上游勘探与生产问题。您还可以探索由于计算环境限制而从未考虑过的问题的解决方案。
内存分析可根据您的业务需求进行扩展,提供对数据的并发、内存和多用途访问,无论数据大小。该软件针对分布式多线程架构和可扩展处理进行了优化,因此可以极快地处理运行新场景或复杂分析计算的请求。
O&G上游地球科学家应该实施内存分析技术,以执行从数据探索、可视化和描述性统计到使用高级算法构建模型的分析。
对于最常见的描述性统计计算,基于SQL的解决方案有许多限制,包括列限制、存储限制和有限的数据类型支持。此外,EDA和数据挖掘操作的迭代性质,例如变量选择、降维、可视化、复杂的分析数据转换和模型训练,需要多次并发传递数据:SQL和关系技术不支持的操作非常适合。
作为内存分析架构背后强大功能的示例,请查看图1.4中的简单热图。您总是会将数据发送回前端报告工具以连续执行复杂的计算。但是,当需要大量计算来分析和生成信息时,就会出现瓶颈。实现内存技术在服务器上执行计算,即时和并行。因此,计算速度非常快,因为您没有将大量数据移动到其他地方进行处理。处理可以在分析服务器上进行,瘦结果发送回客户端进行展示,而不是计算。
图1.4突出显示油气分离厂(GOSP)和相关含水率的热图
1.5.2. 数据库内分析
数据库内分析可以使用本机数据库代码在数据库引擎内执行。传统处理可能包括将数据复制到次要位置,然后使用E&P上游产品处理数据。数据库内处理的好处包括减少数据移动、更快的运行时间以及利用现有数据仓库投资的能力。12数据库内分析总是涵盖两个关键领域:
- 开发新产品,提供对现有功能的访问和处理数据库内。
- 增强现有产品以利用数据库功能。
通过将选定的上游技术集成到数据库或数据仓库中,数据库内处理是一种灵活、有效的方式来利用不断增加的数据量。它利用数据库或数据仓库的大规模并行处理(MPP)架构来实现可扩展性和更好的性能。将相关的数据管理、分析和报告任务转移到数据所在的位置有利于提高速度、减少不必要的数据移动并促进更好的数据治理。对于上游决策者来说,这意味着更快地访问分析结果和更敏捷、更准确的决策。
石油公司在竞争激烈且不断变化的全球经济中运营,每个问题都伴随着机遇。大多数组织都在努力管理和从数据中收集洞察力,并利用分析结果来提高绩效。他们经常发现分析模型的开发、部署和管理是一个耗时、劳动密集型的过程,尤其是在与过多的数据移动和冗余相结合时。
数据库内处理非常适合两个关键场景。第一个场景是大数据企业分析,所涉及的数据量庞大,因此通过网络重复复制它们是不切实际的。第二种情况是在复杂的、组织多样化的环境中,其中不同的业务社区需要共享公共数据源,从而推动了对集中式企业数据仓库的需求。石油公司应实施企业数据治理政策,以促进单一版本的真相,最大限度地减少数据不一致和数据冗余,并使数据访问需求与常见业务使用保持一致。
1.5.3. 网格计算
随着数据集成、分析和报告功能在战略上的重要性不断提高,并且包含越来越多的用户和大量数据,经济高效地扩展业务分析系统以获得运营灵活性、提高性能和满足峰值需求的能力使用网格计算成为一种竞争优势。
网格计算使O&G公司能够创建一个托管的共享环境,以更有效地处理大量数据和分析程序。它提供当今业务分析环境所需的关键功能,包括工作负载平衡、作业优先级、高可用性和内置故障转移、并行处理和资源分配以及监控。
网格管理器为管理策略、程序、队列和作业优先级提供了一个中心点,以在给定的一组约束下跨多种类型的用户和应用程序实现业务目标。通过轻松地重新分配计算资源以满足峰值工作负载或不断变化的业务需求,IT可以获得灵活性并满足服务水平。
网格环境中多台服务器的存在使作业能够在最佳可用资源上运行,如果一台服务器出现故障,其作业可以无缝地转移到另一台服务器上;提供高度可用的业务分析环境。高可用性还使IT人员能够在不中断分析工作的情况下对特定服务器进行维护,并在不中断业务的情况下引入额外的计算资源。
网格计算提供O&G业务分析环境所必需的关键功能,包括:
- 工作负载管理和工作优先级
- 高可用性
- 并行化业务分析作业以提高性能
工作负载管理允许用户共享资源,以便最有效地平衡工作负载并满足整个企业的服务水平。业务分析工作受益于工作流在最合适的资源上执行,并且多用户工作负载在网格内平衡以实现资源的最佳使用。网格计算提供了对作业进行优先级排序的能力,这使得关键作业能够立即开始而不是在队列中等待。可以暂时暂停低优先级作业,以便立即处理关键作业。
网格计算提供标准化的工作负载管理,以优化处理多个应用程序和工作负载,从而最大限度地提高整体吞吐量。此外,网格计算可以将大型分析作业解析为更小的任务,这些任务可以在更小、更具成本效益的服务器上并行运行,其性能与在大型对称多处理器(SMP)系统上看到的性能相同或更好。上游分析作业的并行化使O&G公司能够将处理速度提高几个数量级,并显着提高分析师的工作效率。
由于潜在的大型数据集和较长的运行时间,油藏模拟程序最适合并行处理。
通过结合工作负载管理、作业优先级和高可用性的强大功能,网格计算可提高性能并为企业提供对其业务分析环境的更多控制和利用。
1.6. 上游数据的三个原则
上游数据的三个原则是:
- 数据管理
- 不确定性的量化
- 风险评估
这些都是石油勘探开发中的关键问题。石油公司被迫在地质更为复杂和偏远的地区进行勘探,以开发更深的或非常规的碳氢化合物矿床。由于在数据质量本质上较差的领域中问题变得过于复杂,以及与不良预测(干洞)相关的成本增加,对学科、数据融合、风险降低和不确定性管理的适当整合的需求变得非常重要。软计算方法提供了解决问题的绝佳机会,例如整合来自具有不同程度不确定性的各种来源的信息,建立测量值和储层特性之间的关系,以及为预测分配风险因素或误差条。
1.6.1. 数据管理
我们将在第2章讨论支持上游数据管理的方法。强调自动化和半自动化工作流背后的企业利益至关重要,这些工作流支持无缝数据聚合、集成来自孤立工程学科的不同数据集,以及生成分析数据仓库(ADW)以准备高级分析流程。
随着上游大数据的出现,我们见证了来自分布在DOFF的智能井中井下传感器的数据爆炸式增长。实施具体的企业数据管理框架以解决由O&G公司的关键资产(数据)产生的一些当前业务问题变得更加重要。
- 跨系统的数据差异
- 具有不同数据的组织孤岛
- 多客户视图
- 需要访问系统内的非结构化数据
- 数据量的急剧增长
1.6.2. 不确定性的量化
您认为在过去几年中,整个E&P价值链的不确定性量化是否有所改善?这一进展是否转化为更简洁、更有效的决策周期?第一个问题的答案是一个示范性的“是”,但第二个问题的答案是一个限定的“否”。
怎么了?不确定性量化本身并不是目的;消除甚至减少不确定性不是目标。相反,目标是做出正确的决定,这在许多情况下需要评估相关的不确定性。油气行业似乎在真诚地努力为决策者提供对重大决策可能产生的结果有更丰富的理解时忽略了这一目标。该行业暗中认为,做出正确的决策只需要更多的信息。为了解决这个问题,让我们探索一个以决策为中心的不确定性量化框架,这将有助于更好的决策工具和方法的创新。我们将通过描述高级分析和软计算技术的几个案例研究来讨论不确定性的量化作为一个共同的主题。
1.6.3. 风险评估
风险评估使不确定性下的决策能够通过减少危害战略的风险等级或通过与目标风险水平和成本效益分析进行比较来发布风险分析。风险可以定义为潜在危害后果乘以情景发生概率的乘积。计算风险后,必须将结果与政府或公司标准进行比较,以确定风险是否可以承受。这意味着风险处于人们普遍愿意接受的水平。
本文来自博客园,作者:智能油气田ing,转载请注明原文链接:https://www.cnblogs.com/gqzxm/p/15264976.html