摘要: 什么是大数据?进入本世纪以来,尤其是2010年之后,随着互联网特别是移动互联网的发展,数据的增长呈爆炸趋势,已经很难估计全世界的电子设备中存储的数据到底有多少,描述数据系统的数据量的计量单位从MB(1MB大约等于一百万字节)、GB(1024MB)、TB(1024GB),一直向上攀升,目前,PB(等于 阅读全文
posted @ 2018-11-14 10:29 本宫没空 阅读(267) 评论(0) 推荐(0) 编辑
摘要: 自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域 阅读全文
posted @ 2018-11-14 10:20 本宫没空 阅读(1194) 评论(0) 推荐(0) 编辑
摘要: 大数据的应用开发过于偏向底层,具有学习难度大,涉及技术面广的问题,这制约了大数据的普及。现在需要一种技术,把大数据开发中一些通用的,重复使用的基础代码、算法封装为类库,降低大数据的学习门槛,降低开发难度,提高大数据项目的开发效率。 大数据在工作中的应用有三种:与业务相关,比如用户画像、风险控制等; 阅读全文
posted @ 2018-11-14 09:57 本宫没空 阅读(3721) 评论(0) 推荐(0) 编辑
摘要: hadoop是一个开源软件框架,可安装在一个商用机器集群中,使机器可彼此通信并协同工作,以高度分布式的方式共同存储和处理大量数据。最初,Hadoop 包含以下两个主要组件:Hadoop Distributed File System (HDFS) 和一个分布式计算引擎,该引擎支持以 MapReduc 阅读全文
posted @ 2018-11-13 09:46 本宫没空 阅读(370) 评论(0) 推荐(0) 编辑
摘要: 如今有很多公司都在努力挖掘他们拥有的大量数据,包括结构化、非结构化、半结构化以及二进制数据等,来探索对数据的深入利用。 大多数公司估计他们只分析了已有数据的12%,剩余88%还没有被充分利用。大量的数据孤岛和分析能力的缺乏是造成这种局面的主要原因。另外一个难题是如何判断数据是否有价值。尤其是在大数据 阅读全文
posted @ 2018-11-13 09:44 本宫没空 阅读(285) 评论(0) 推荐(0) 编辑
摘要: 一、什么是大数据 进入本世纪以来,尤其是2010年之后,随着互联网特别是移动互联网的发展,数据的增长呈爆炸趋势,已经很难估计全世界的电子设备中存储的数据到底有多少,描述数据系统的数据量的计量单位从MB(1MB大约等于一百万字节)、GB(1024MB)、TB(1024GB),一直向上攀升,目前,PB( 阅读全文
posted @ 2018-11-12 18:53 本宫没空 阅读(576) 评论(0) 推荐(0) 编辑
摘要: 大数据框架hadoop服务角色介绍 翻了一下最近一段时间写的分享,DKHadoop发行版本下载、安装、运行环境部署等相关内容几乎都已经写了一遍了。虽然有的地方可能写的不是很详细,个人理解水平有限还请见谅吧!我记得在写DKHadoop运行环境部署的时候,遗漏了hadoop服务角色的内容,本篇特地补上这 阅读全文
posted @ 2018-11-12 18:50 本宫没空 阅读(608) 评论(0) 推荐(0) 编辑
摘要: 学习hadoop需要什么基础 “学习hadoop需要什么基础”这已经不是一个新鲜的话题了,随便上网搜索一下就能找出成百上千篇的文章在讲学习hadoop需要掌握的基础。再直接的一点的问题就是——学Hadoop难吗?用一句特别让人无语的话回答就是:难不会,会不难! 趁着学校放假的时间,写了一些hadoo 阅读全文
posted @ 2018-11-09 09:27 本宫没空 阅读(1530) 评论(0) 推荐(0) 编辑
摘要: web开发安全框架中的Apache Shiro的应用前阶段就hadoop的分享了一些内容,希望对新手入门的朋友有点帮助吧!对于hadoop新手入门的,还是比较推荐大快搜索的DKHadoop发行版,三节点标准版还是值得拥有的(三节点的标准版是可以免费下载的,与付费版的目前功能一样,只是节点数量不同,对 阅读全文
posted @ 2018-11-09 09:26 本宫没空 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 大数据分布式存储的部署模式:分离式or超融合 数据中心内部系统的核心要求是“稳定可靠”,一是指系统在运行过程中有能力提供连续可靠的服务,长时间无故障运行;二是指当故障发生之后,有能力快速定位,及时排查,故障范围不蔓延。 分离式部署的方式,使得系统与云平台系统相独立,避免了计算和存储争抢CPU/内存/ 阅读全文
posted @ 2018-11-07 09:52 本宫没空 阅读(1384) 评论(0) 推荐(0) 编辑