摘要:
在前面的 "Spark发展历程和基本概念" 中介绍了Spark的一些基本概念,熟悉了这些基本概念对于集群的搭建是很有必要的。我们可以了解到每个参数配置的作用是什么。这里将详细介绍Spark集群搭建以及xml参数配置。Spark的集群搭建分为分布式与伪分布式,分布式主要是与hadoop Yarn集群配 阅读全文
摘要:
Hadoop十年 找了一张Hadoop十年的生态发展图: Spark概况: Apache Spark 是一个 "开源" 簇运算框架,最初是由加州大学柏克莱分校AMPLab所开发。相对于 "Hadoop" 的 "MapReduce" 会在运行完工作后将中介数据存放到磁盘中,Spark使用了内存内运算技 阅读全文
摘要:
1、关于收益率 假如你有100万,收益100%后资产达到200万,如果接下来亏损50%,则资产回到100万,显然亏损50%比赚取100%要容易得多; 2、关于涨跌停 假如你有100万,第一天涨停板后资产达到110万,然后第二天跌停,则资产剩余99 万;反之第一天跌停,第二天涨停,资产还是99万元; 阅读全文
摘要:
一、Numpy简介: Python中用列表(list)保存一组值,可以用来当作数组使用,不过由于列表的元素可以是任何对象,因此列表中所保存的是对象的指针。这样为了保存一个简单的[1,2,3],需要有3个指针和三个整数对象。对于数值运算来说这种结构显然比较浪费内存和CPU计算时间。此外Python还提 阅读全文
摘要:
Java集合框架是非常普遍使用,也是非常重要的部分,同时也是很基础的部分,熟练掌握很重要,它对于数据的操作提供了良好的接口,下面将从整个集合框架的体系介绍重要的集合框架类,使用方法,以及内部原理。 一、简介: 1、集合框架分两大类(接口): Collection:存储单个数据或者对象。 |-List 阅读全文
摘要:
Lucene 是 Apache 软件基金会的一个开放源代码的全文检索引擎工具包,是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。Lucene 的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。 阅读全文
摘要:
fscrawler是ES的一个文件导入插件,只需要简单的配置就可以实现将本地文件系统的文件导入到ES中进行检索,同时支持丰富的文件格式(txt.pdf,html,word...)等等。下面详细介绍下fscrawler是如何工作和配置的。 一、fscrawler的简单使用: 1、下载: wget ht 阅读全文
摘要:
前面介绍了ES,Kibana5.3.1的安装配置,以及IK分词的安装和同义词设置,这里主要记录Logstash导入mysql数据到Elasticsearch5.3.1并设置IK分词和同义词。由于logstash配置好JDBC,ES连接之后运行脚本一站式创建index,mapping,导入数据。但是如果我们要配置IK分词器就需要修改创建index,mapping的配置,下面详细介绍logstash的Template模板配置。 阅读全文
摘要:
不压缩方式压缩的文件需要不同的命令来解压缩,下面是Linux的各种文件解压命令。 对于.tar结尾的文件: tar -xf 对于.gz结尾的文件 : gzip -d all.gz gunzip all.gz 对于.tgz或.tar.gz结尾的文件 : tar -xzf all.tar.gz tar 阅读全文
摘要:
本文主要是记录Elasticsearch5.3.1 IK分词,同义词/联想搜索设置,本来是要写fscrawler的多种格式(html,pdf,word...)数据导入的,但是IK分词和同义词配置还是折腾了两天,没有很详细的内容,这里决定还是记录下来。IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IK Analyzer 3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。所以IK跟ES本来是天生一对,当然是对于 阅读全文
摘要:
前言:上篇[大数据]-Elasticsearch5.3.1+Kibana5.3.1从单机到分布式的安装与使用<1>中介绍了ES ,Kibana的单机到分布式的安装,这里主要是介绍Elasticsearch5.3.1的一些概念。官方示例的基本数据导入,数据查询以及ES,kibana的功能组件的认识和熟 阅读全文
摘要:
一、Elasticsearch,Kibana简介: Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎。无论在开源还是专有领域, Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。 Elasticsearch也使用Java开发并使用Lucen 阅读全文
摘要:
一、Java SE 8 Java SE 8发行于2014年3月18日,代号culture,这是一个在Java历史上的重大发布 Java SE 8 新特性: Lambda Expressions(Lambda表达式) Pipelines and Streams(管道和流) Date and Time 阅读全文
摘要:
前言:此文又臭又长,废话连篇。某段言论激进,但绝无偏见。兄弟伙伴们看过且一笑置之。 人总是会变得,人也是最善变的动物。而我们要坚定的去努力不变成曾经厌恶的人! 那些年我们书生意气,伴着朗朗的读书声。‘“大江东去浪淘尽,千古风流人物...”,"...惜秦皇汉武,略输文采,唐宗宋祖,稍逊风骚...",仿 阅读全文
摘要:
一、前期准备工作: 1.安装包的准备: VMware(10.0版本以上) : 官方网站:https://www.vmware.com/cn.html 官方下载地址:http://www.vmware.com/products/player/playerpro-evaluation.html 10.0 阅读全文