2019 年 12月随笔档案 - 云山之巅

什么是Apache Flink实时流计算框架？

摘要：一.概述 Apache Flink 是一个框架和分布式处理引擎，用于对无限制和有限制的数据流进行有状态的计算。Flink被设计为可以在所有常见的集群环境中运行，以内存速度和任何规模的计算。首先，需要对什么是无限制什么是有限制做一下说明，首先看官方的解释： 1、无限制数据流无限制数据流指数据是没有阅读全文

posted @ 2019-12-31 10:45 云山之巅阅读(1329) 评论(0) 推荐(0) 编辑

基于Tesseract实现图片文字识别

摘要：一.简介 Tesseract是一个开源的文本识别【OCR】引擎，可通过Apache 2.0许可获得。它可以直接使用，或者使用API从图像中提取打印的文本，支持多种语言。该软件包包含一个ORC引擎【libtesseract】和一个命令行程序【tesseract】。Tesseract4添加了一个新的基于阅读全文

posted @ 2019-12-27 10:08 云山之巅阅读(5271) 评论(0) 推荐(1) 编辑

Spark源码解析排序算子sortBy和sortByKey存在未排序的情况

摘要：一.在使用中出现的问题 1 package test 2 3 import org.apache.log4j.{Level, Logger} 4 import org.apache.spark.sql.SparkSession 5 6 /** 7 * Created by Administrator 阅读全文

posted @ 2019-12-24 11:33 云山之巅阅读(1664) 评论(0) 推荐(0) 编辑

Kaldi语音识别快速入门

摘要：一.简介 Kaldi是使用C++编写的语音识别工具包，Apache License v2.0许可。主要供语音识别研究人员使用。Kaldi的目标和范围与HTK类似。目标是拥有易于修改和扩展的现代而灵活的代码。主要功能包括： 1.与有限状态传感器FST的代码进行集成，根据OpenFst工具箱【作为库】进阅读全文

posted @ 2019-12-11 19:02 云山之巅阅读(5567) 评论(0) 推荐(0) 编辑

Solr搜索引擎【索引管理】

摘要：一.索引存储当文档提交到索引之后，directory目录组件会将它们写入到持久化存储器。Solr的目录组件具有以下重要特点： 1.隐藏持久存储的读写细节，例如，将文档写入到磁盘或通过JDBC在数据库中存储文档。 2.实现特定的存储锁定机制，防止索引出错。例如，在操作系统级别上基于文件系统的存储锁定阅读全文

posted @ 2019-12-07 18:52 云山之巅阅读(418) 评论(0) 推荐(0) 编辑

Solr搜索引擎【索引提交、事务日志、原子更新】

摘要：一.索引提交当一个文档被添加到Solr中，但没有提交给索引之前，这个文档是无法被搜索的。换句话说，从查询的角度看，文档直到提交之后才是可见的。Solr有两种类型的提交：软提交和正常提交【也称硬提交】。 1.正常提交 Solr正常提交是将所有未提交的文档写入磁盘，并刷新一个内部搜索器组件，让新提交的阅读全文

posted @ 2019-12-01 20:17 云山之巅阅读(836) 评论(0) 推荐(0) 编辑

数据可视化概述

摘要：一.图表概述 1.数据图表能使表达形象化。使用数据图表可以使冗长的文字表达简洁化，化抽象为具体，使深奥的内容形象化，使阅读者更容易理解所要表达的主题及观点。 2.数据图表便于突出重点。通过对图表中数据的颜色和字体等信息的设置，可以把问题的重点有效地传达给阅读者。 3.数据图表更能体现专业化。恰当、得阅读全文

posted @ 2019-12-01 12:47 云山之巅阅读(717) 评论(0) 推荐(0) 编辑

云山之巅

------自学是你超越他人使自己变的重要的一种能力！

12 2019 档案

公告

最新随笔

我的标签

积分与排名

随笔分类 (82)

随笔档案 (315)

相册 (11)

阅读排行榜

评论排行榜

推荐排行榜

最新评论