Hadoop develop

博学笃志,切问近思,此八字,是收放心的工夫。 神闲气静,智深勇沉,此八字,是干大事的本领。

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

一、前言

本文是《知识图谱完整项目实战(附源码)》系列博文的第3篇:汽车知识图谱系统架构设计,主要介绍汽车领域知识图谱系统的总体架构设计和关键技术。

知识图谱的学习是一个基础到实战,从入门到精通的一个逐渐深入的、渐进式的过程。在这个过程中,一个完整的项目,起到的作用往往是对过往所学全部知识的串联和融合。只有经过一个完整项目的实践,才能真正把所学的、离散的、点状的知识点融合到一起,从而形成理论到实战的转变。基于这样的一个原因考虑,结合自身工程实践的过程,才有了这样一个课程,希望能够对渴望知识图谱能力进阶的人有所裨益。

二、正文

2.1 汽车知识图谱总体设计

汽车知识图谱的系统架构可以划分为五个层次:数据源、ETL知识抽取层、数据模型层、业务逻辑层、知识应用层。这里面层次的划分其实是在参考传统的数据系统建设的思路。

2.2 汽车知识图谱关键技术

知识图谱的关键技术可以从知识的来源进行区分,包括知识获取对应网络爬虫,ETL工具;知识存储对应图数据库;知识图谱可视化对应数据可视化分析工具等。

2.2.1 图数据库

Neo4j是图数据库领域的王者,连续多年在DB排行中处于第一,具有成熟的文档和稳定的系统,同时包括开源版本和企业版本,是构建知识图谱的首选。

Apache Jena是RDF和OWL的开发框架,同时提供了Fusike和TDB的数据访问和存储支持,是基于本体建模的最佳选择。

2.2.2 Python爬虫


python爬虫框架中,最为成熟和完整的框架是scrapy,目前为止是基于pyton构建网络爬虫的最佳选择。其工作流程和运行机制如下图所示:

三、未完待续

本文是《知识图谱完整项目实战(附源码)》系列博文的第3篇:汽车知识图谱系统架构设计,主要介绍汽车领域知识图谱系统的总体架构设计和关键技术。配套视频内容已同步发布在网易云课堂《知识图谱完整项目实战(附源码)》,敬请关注。知识图谱交流群:149933712。


posted on 2019-02-14 10:58  张子良  阅读(6216)  评论(0编辑  收藏  举报