摘要: 一、背景 开源MPP数据库Greenplum是一种基于PostgreSQL的分布式数据库,其采用shared-nothing架构,其架构专门用于管理大规模分析数据仓库,Greenplum主要定位在OLAP领域,利用Greenplum MPP数据库做大数据计算或分析平台非常适合,典型的就是数据仓库系统 阅读全文
posted @ 2020-08-09 22:13 Histring 阅读(1279) 评论(0) 推荐(0) 编辑
摘要: 一、背景 在舆情系统中,通常会有一个网络新闻爬虫子系统,准实时的采集互联网上的媒体新闻数据,以供上层聚类事件分析。这类新闻数据的组成元素包括: 标题 发布时间 来源及其URL链接地址 正文文本内容 正文图片信息(图片位置、图片的URL路径等) 其他 二、libnpce组件 新闻文章正文抽取News 阅读全文
posted @ 2020-08-09 22:12 Histring 阅读(172) 评论(0) 推荐(0) 编辑
摘要: 一、Greenplum数据库 Greenplum是一款开源的分布式数据库存储解决方案,官方的安装操作文档地址为: https://gpdb.docs.pivotal.io/6-11/install_guide/install_guide.html 本文介绍几种在CentOS7操作系统下快速安装Gre 阅读全文
posted @ 2020-08-09 22:11 Histring 阅读(1932) 评论(0) 推荐(0) 编辑