摘要:
一.简介 Tesseract是一个开源的文本识别【OCR】引擎,可通过Apache 2.0许可获得。它可以直接使用,或者使用API从图像中提取打印的文本,支持多种语言。该软件包包含一个ORC引擎【libtesseract】和一个命令行程序【tesseract】。Tesseract4添加了一个新的基于 阅读全文
摘要:
一.在使用中出现的问题 1 package test 2 3 import org.apache.log4j.{Level, Logger} 4 import org.apache.spark.sql.SparkSession 5 6 /** 7 * Created by Administrator 阅读全文
摘要:
一.简介 Kaldi是使用C++编写的语音识别工具包,Apache License v2.0许可。主要供语音识别研究人员使用。Kaldi的目标和范围与HTK类似。目标是拥有易于修改和扩展的现代而灵活的代码。主要功能包括: 1.与有限状态传感器FST的代码进行集成,根据OpenFst工具箱【作为库】进 阅读全文
摘要:
一.索引存储 当文档提交到索引之后,directory目录组件会将它们写入到持久化存储器。Solr的目录组件具有以下重要特点: 1.隐藏持久存储的读写细节,例如,将文档写入到磁盘或通过JDBC在数据库中存储文档。 2.实现特定的存储锁定机制,防止索引出错。例如,在操作系统级别上基于文件系统的存储锁定 阅读全文
摘要:
一.索引提交 当一个文档被添加到Solr中,但没有提交给索引之前,这个文档是无法被搜索的。换句话说,从查询的角度看,文档直到提交之后才是可见的。Solr有两种类型的提交:软提交和正常提交【也称硬提交】。 1.正常提交 Solr正常提交是将所有未提交的文档写入磁盘,并刷新一个内部搜索器组件,让新提交的 阅读全文
摘要:
一.图表概述 1.数据图表能使表达形象化。使用数据图表可以使冗长的文字表达简洁化,化抽象为具体,使深奥的内容形象化,使阅读者更容易理解所要表达的主题及观点。 2.数据图表便于突出重点。通过对图表中数据的颜色和字体等信息的设置,可以把问题的重点有效地传达给阅读者。 3.数据图表更能体现专业化。恰当、得 阅读全文
摘要:
一.相关性分析 1.简介 计算两个系列数据之间的相关性是统计中的常见操作。在spark.ml中提供了很多算法用来计算两两的相关性。目前支持的相关性算法是Pearson和Spearman。Correlation使用指定的方法计算输入数据集的相关矩阵。输出是一个DataFrame,其中包含向量列的相关矩 阅读全文
摘要:
一.分区策略 GraphX采用顶点分割的方式进行分布式图分区。GraphX不会沿着边划分图形,而是沿着顶点划分图形,这可以减少通信和存储的开销。从逻辑上讲,这对应于为机器分配边并允许顶点跨越多台机器。分配边的方法取决于分区策略PartitionStrategy并且对各种启发式方法进行了一些折中。用户 阅读全文
摘要:
一.算法 非形式地说,算法【algorithm】就是任何定义的计算过程,该过程取某个值或值的集合作为输入并产生某个值或值的集合作为输出。这样算法就是把输入转换成输出的计算步骤的一个序列。 我们也可以把算法看成是用于求解计算问题的工具。一般来说,问题陈述说明了期望的输入/输出关系。算法则描述一个特定的 阅读全文
摘要:
一.概述 在许多数据中,都存在类别的数据,在一些功能中需要根据类别分别获取前几或后几的数据,用于数据可视化或异常数据预警。在这种情况下,实现分组TopN就显得非常重要了,因此,使用了Spark聚合函数和排序算法实现了分布式TopN计算功能。 二.代码实现 1 package scala 2 3 im 阅读全文
摘要:
一.案例SparkPi代码 1 package scala 2 3 import org.apache.spark.sql.SparkSession 4 5 import scala.math.random 6 7 /** Computes an approximation to pi */ 8 o 阅读全文
摘要:
一.图构建器 GraphX提供了几种从RDD或磁盘上的顶点和边的集合构建图形的方法。默认情况下,没有图构建器会重新划分图的边;相反,边保留在默认分区中。Graph.groupEdges要求对图进行重新分区,因为它假定相同的边将在同一分区上放置,因此在调用Graph.partitionBy之前必须要调 阅读全文
摘要:
一.概述 强化学习是根据奖励信号以改进策略的机器学习方法。策略和奖励是强化学习的核心元素。强化学习试图找到最大化总奖励的策略。强化学习不是监督学习,因为强化学习的学习过程中没有参考答案;强化学习也不是非监督学习,因为强化学习需要利用奖励信号来学习。 强化学习任务常用“智能体/环境”接口建模。学习和决 阅读全文
摘要:
一.缓存原理 缓存,带来急速性能体验! Solr提供了一系列的内置缓存来优化查询性能。Solr的缓存原理主要涉及以下4个方面: 1.缓存大小及缓存置换法 从缓存大小的角度来看,不能将缓存设置的太大,否则它会消耗JVM大量的内存。Solr能将所有的缓存对象都保存到内存中,不会溢写到磁盘中。为了控制缓存 阅读全文
摘要:
一.搜索处理器简介 所有的请求处理器都实现一个Java类,本例实现了solr.SearchHandler。在运行时,solr.SearchHandler被解析为内置的Solr类org.apache.solr.handler.component.SearchHandler。一般来说,只要在solrco 阅读全文
摘要:
一.简介 参考博客:https://www.cnblogs.com/yszd/p/10186556.html 二.代码实现 三.结果 随机生成的顶点数据: 聚合结果: 阅读全文
摘要:
一.机器收集数据 机器收集数据会从不同角度对数据进行抓取和采集,与之前手动收集数据不同,机器收集数据不再是用小样本、特定样本来采集和分析整体数据,而是采用大样本或整体数据进行分析,这打破了原来的数据分析模式,数据分析的精确度也大大提高。 二.机器收集数据的描述 1.网址采集【基于爬虫等技术,例如:S 阅读全文
摘要:
一.概述 SPSS【Statistical Package for the Social Science】社会科学统计软件包。SPSS统计软件在社会学、经济学、心理学、教育学等多个学科的研究工作和通信、医疗、银行、证券、保险、制造、商业、市场调研、统计调查等行业的数据分析中得到了广泛的应用,全球50 阅读全文
摘要:
一.应用场景 在Spark程序中调用Linux命令,实现一些程序难以实现的功能,例如:发送模拟邮件、文件打包或解压等等 二.代码实现 1 package big.data.analyse.linux 2 3 import org.apache.log4j.{Level, Logger} 4 impo 阅读全文
摘要:
一.启动机制 Solr作为一个Java Web应用默认运行在Jetty上,使用全局Java属性【solr.solr.home】来定位配置文件的根目录。在启动时,Solr会扫描主目录下包含core.properties文件的子文件夹。该文件定义了Solr中自动发现内核的基本属性。例如: 此外,该配置文 阅读全文