随笔分类 - 大数据
摘要:知识图谱构建 知识图谱由实体、实体的属性描述以及实体和实体之间的关联构成。尽管其对于大数据人工智能的实现意义非凡,但其构造过程却极为困难。在早期,知识图谱构建单纯依赖于人类专家。在这一方法中,知识图谱中的实体、实体属性与实体关联关系完全由专家人工构造,此类知识图谱包括WordNet[2]、CyC[3
阅读全文
摘要:实践了下怎么建一个简单的知识图谱,两个版本,一个从 0 开始(start from scratch),一个在 CN-DBpedia 基础上补充,把 MySQL,PostgreSQL,Neo4j 数据库都尝试了下。自己跌跌撞撞摸索可能踩坑了都不知道,欢迎讨论。 1. CN-DBpedia 构建流程 知
阅读全文
摘要:
近两年来,随着Linking Open Data[1] 等项目的全面展开,语义Web数据源的数量激增,大量RDF数据被发布。互联网正从仅包含网页和网页之间超链接的文档万维网(Document Web)转变成包含大量描述各种实体和实体之间丰富关系的数据万维网(Data Web)。在这个背景下,Google、百度和搜狗等搜索引擎公司纷纷以此为基础构建知识图谱,分别为Knowledge Graph、知心和知立方,来改进搜索质量,从而拉开了语义搜索的序幕。下面我将从以下几个方面来介绍知识图谱:知识图谱的表示和在搜索中的展现形式,知识图谱的构建和知识图谱在搜索中的应用等,从而让大家有机会了解其内部的技术实现和各种挑战。
阅读全文
![](http://www.36dsj.com/wp-content/uploads/2016/01/312.png)
摘要:
知识图谱 (Knowledge Graph) 是当前的研究热点。自从2012年Google推出自己第一版知识图谱以来,它在学术界和工业界掀起了一股热潮。各大互联网企业在之后的短短一年内纷纷推出了自己的知识图谱产品以作为回应。比如在国内,互联网巨头百度和搜狗分别推出”知心“和”知立方”来改进其搜索质量。那么与这些传统的互联网公司相比,对处于当今风口浪尖上的行业 – 互联网金融, 知识图谱可以有哪方面的应用呢?
阅读全文
![](https://pic4.zhimg.com/4d4ad0bad5cce95f1bb6aceae2790fbb_r.jpg)
摘要:一、序言 随着TDW的发展,公司在大数据离线分析方面已经具备了行业领先的能力。但是,很多应用场景往往要求在数秒内完成对几亿、几十亿甚至几百上千亿的数据分析,从而达到不影响用户体验的目的。如何能够及时有效的获取分析结果提高工作效率,这是许多分析人员在面对大数据所不得不面临的问题。要满足这样的需求...
阅读全文
摘要:对微信、陌陌等进行了分析,发出来分享一下(时间有些久了)电量:对于移动设备最大的瓶颈就是电量了。因为用户不可能随时携带电源,充电宝。所以必须考虑到电量问题。那就要检查我们工程是不是有后台运行,心跳包发送时间是不是合理。流量:对于好多国内大部分屌丝用户来说可能还是包月30M,那么我们必须站在广大用户角...
阅读全文
摘要:作者:孔凡勇现在几乎任何一个网站、Web App以及移动APP等应用都需要有图片展示的功能,对于图片功能从下至上都是很重要的。必须要具有前瞻性的规划好图片服务器,图片的上传和下载速度至关重要,当然这并不是说一上来就搞很NB的架构,至少具备一定扩展性和稳定性。虽然各种架构设计都有,在这里我只是谈谈我的...
阅读全文
摘要:Hadoop在运行一个mapreduce job之前,需要估算这个job的maptask数和reducetask数。首先分析一下job的maptask数,当一个job提交时,jobclient首先分析job被拆分的split数量,然后吧job.split文件放置在HDFS中,一个job的MapTas...
阅读全文
摘要:测试启动 按照下面的每一步执行,执行完一定要看输出的信息,注意warn或error或fatal的情况。因为这都是可能是问题出现的地方。出现一个问题,不解决,可能就会影响接下来的测试。这才是真正的工作量。1、启动zookeeper 在hadoop1、hadoop2、hadoop3、hadoop4、ha...
阅读全文
摘要:前言 本文主要通过对hadoop2.2.0集群配置的过程加以梳理,所有的步骤都是通过自己实际测试。文档的结构也是根据自己的实际情况而定,同时也会加入自己在实际过程遇到的问题。搭建环境过程不重要,重要点在于搭建过程中遇到的问题,解决问题的过程。 可能自己遇到的问题在一些由经验的老者手上都不是问题,但是...
阅读全文
摘要:
在寒假前的一段时间,开始调研Hadoop2.2.0搭建过程,当时苦于没有机器,只是在3台笔记本上,简单跑通一些数据。一转眼一两个月过去了,有些东西对已经忘了。现在实验室申请下来了,分了10台机器(4G+500G),这足够我们玩的了。开始搭建Hadoop2.2.0分布式集群,也趁着这个机会把整个流程梳理一下。
在很多博客中有关于Hadoop2.2.0版本的安装过程,有的很全,但是按照去做,还是会出现一些问题卡在那里。有的时候需要结合几篇文档去搭建平台。在这篇博客汇总会把我们遇到的问题,以及搭建过程中发生的一些事情总结一下。有关于hadoop具体的安装过程和配置相应的文件,我们后续也会给出来。
如果你决定花点时间去读这篇文章了,请大家仔细读一下,因为每一个点,我们都在上面耽误了一些时间,梳理一下,大家如果遇到相应的问题,也算给大家提供了一个解决方案。
阅读全文
![](http://hadoop.apache.org/images/hadoop-logo.jpg)
摘要:2011年小规模试水这一阶段的主要工作是建立了一个小的集群,并导入了少量用户进行测试。为了满足用户的需求,我们还调研了任务调度系统和数据交换系统。我们使用的版本是当时最新的稳定版,Hadoop 0.20.203和Hive 0.7.1。此后经历过多次升级与Bugfix。现在使用的是Hadoop 1.0.3+自有Patch与Hive 0.9+自有Patch。考虑到人手不足及自己的Patch不多等问题,我们采取的策略是,以Apache的稳定版本为基础,尽量将自己的修改提交到社区,并且应用这些还没有被接受的Patch。因为现在Hadoop生态圈中还没有出现一个类似Red Hat地位的公司,我们也不希望
阅读全文