摘要:
一.维度 1.数据模型 数据有多种存储的方式,包括键值对【类似Map】、半结构化的列式存储和文档结构存储。 2.存储模型 内存还是磁盘持久化可以和RDBMS进行比较,它们通常持久化存储数据到磁盘中。即使需要的是纯粹内存模式,也仍旧有其他方案。一旦考虑持久化存储,就需要考虑选择的方案是否影响到访问模式 阅读全文
摘要:
一.海量数据的黎明 以前,因为缺乏划算的方式来存储所有信息,很多公司会忽略某些数据源,但是现在这样的处理方式会让公司丧失竞争力。存储和分析每一个数据点的需求在不断增长,这种需求的增长直接导致各公司电子商务平台产生了更多的数据。 过去,唯一的选择就是将收集到的数据删减后保存起来,例如只保存最近N天的数 阅读全文
摘要:
一.代码实现 package cn.socket import org.apache.flink.streaming.api.scala._ // 数据类型异常,动态数据引入 // import org.apache.flink.api.scala._ // 数据类型异常,静态数据引入 /** * 阅读全文
摘要:
一.字段查询解析器 字段查询解析器在指定字段中搜索词项或短语,可以使用该字段定义的任何文本分析方式。f参数指明要进行词项或短语搜索的字段,语法如下: {!field f=myfield}hello world 该语法与使用Lucene查询解析器搜索短语myfield:"hello world"是等价 阅读全文
摘要:
一.输入层 1.用途 构建深度神经网络输入层,确定输入数据的类型和样式。 2.应用代码 input_data = Input(name='the_input', shape=(1600, 200, 1)) 3.源码 def Input(shape=None, batch_shape=None, na 阅读全文
摘要:
一.序列模型 1.序列模型【写法一】 序列模型属于通用模型的一种,这种模型各层之间是依次顺序的线性关系。在第k层和第k+1层之间可以加上各种元素来构造神经网络。这些元素可以通过一个列表来制定,然后作为参数传递给序列模型来生成相应的模型。 from keras.models import Sequen 阅读全文
摘要:
一.简介 Lucene查询解析器语法支持创建任意复杂的布尔查询,但还有一些缺点,它不是用户查询处理的理想解决方案。这里面最大的问题是Lucene查询解析器的语法要求严格,一旦破坏就会抛出异常。指望用户在输入关键词时能够理解Lucene查询语法并始终能输入完美的查询表达式,这显然是不合理的。这意味着, 阅读全文
摘要:
一.Flink新特性 1.支持Scala2.12 2.对SQL功能进行完善 a.Streaming SQL新增Temporal Tables【时态表】 时态表:时态表记录了数据改变的历史状态,该表可以返回特定时间点的表的内容。 b.Streaming SQL支持模式匹配 模式匹配:Flink CEP 阅读全文
摘要:
一.损失函数的使用 损失函数【也称目标函数或优化评分函数】是编译模型时所需的两个参数之一。 model.compile(loss='mean_squared_error', optimizer='sgd') 或 from keras import losses model.compile(loss= 阅读全文
摘要:
一.简介 大多数查询都使用 了标准的Solr语法。这种语法是Solr最常见的,由默认查询解析器负责处理。Solr的默认查询解析器是Lucene查询解析器【LuceneQParserPlugin类实现】。Lucene查询解析器全面支持Lucene语法及Solr的一些专用扩展。 二.Lucene查询解析 阅读全文
摘要:
一.简介 Solr的搜索主要由两个操作组成:找到与请求参数相匹配的文档;对这些文档进行排序,返回最相关的匹配文档。默认情况下,文档根据相关度进行排序。这意味着,找到匹配的文档集之后,需要另一个操作来计算每个匹配文档的相关度得分。 二.fq和q参数 为有效地查找匹配的文档和计算文档的相关度得分,Sol 阅读全文
摘要:
一.软件要求 Flink在所有类UNIX的环境【例如linux,mac os x和cygwin】上运行,并期望集群由一个 主节点和一个或多个工作节点组成。在开始设置系统之前,确保在每个节点上都安装了一下软件: 1.Java1.8.x或更高版本 2.ssh,必须运行sshd才能使用管理远程组件的Fli 阅读全文
摘要:
一.Solr请求概念 Solr最常见的请求类型是在Solr索引中查找相关文档的查询【query】。除此之外,Solr还可以处理许多不同类型的请求。所有的请求基本上都是通过请求处理器提交给Solr。搜索处理器【search handler】是查询处理的默认请求处理器,通过调用一个或多个搜索组件,每个组 阅读全文
摘要:
一.DStreams【离散流】 DStreams或离散流是Spark Streaming提供的基本抽象。它表示连续的数据流,可以是从源接收的输入数据流,也可以是通过转换输入流生成的已处理数据流。在内部,DStream由一系列连续的RDD表示,这是Spark对不可变的分布式数据集的抽象。DStream 阅读全文
摘要:
一.下载训练好的模型 下载路径:http://kaldi-asr.org/models/m2 二.上传&配置 1.上传到kaldi/egs/目录下 2.解压,tar -zxvf 0002_cvte_chain_model_v2.tar.gz 备注:因HCLG.fst模型解压后文件较大,在解压过程中会 阅读全文
摘要:
一.通用工具 在kaldi/src/base/目录下,查看kaldi-common.h文件,内容如下: // base/kaldi-common.h // Copyright 2009-2011 Microsoft Corporation // See ../../COPYING for clari 阅读全文
摘要:
一.前提条件 在kaldi目录下的子目录kaldi/egs/目录下保存着资源管理示例脚本。查看该目录中的README.txt文件,尤其是查看资源管理部分,它提到 与语料库相对应的LDC目录号。这可以从LDC获取数据。 进入rm目录,浏览README.txt文件查看整体结构,进入s5子目录,在s5目录 阅读全文
摘要:
一.概述 Solr文本分析消除了索引词项与用户搜索词项之间的语言差异,让用户在搜索buying a new house时能找到类似的内容,例如:purchasing a new home这样的文档。如果搭配恰当,文本分析就能允许用户使用自然语言进行搜索,而无需考虑搜索词项的所有可能形式。毕竟谁也不想 阅读全文
摘要:
一.事件驱动 提到事件驱动应用,首先讲什么是事件驱动的应用程序?事件驱动的应用程序是有状态的应用程序,它从一个或多个事件中提取事件,并通过触发计算,状态更新或外部操作来对传入的事件做出反应。 事件驱动的应用程序是传统应用程序设计的发展,具有分离的计算和数据存储层。在这种体系结构中,应用程序从远程事务 阅读全文
摘要:
一.概述 Apache Flink 是一个框架和分布式处理引擎,用于对无限制和有限制的数据流进行有状态的计算。Flink被设计为可以在所有常见的集群环境中运行,以内存速度和任何规模的计算。 首先,需要对什么是无限制什么是有限制做一下说明,首先看官方的解释: 1、无限制数据流 无限制数据流指数据是没有 阅读全文