随笔分类 - spark
摘要:date: 2018-08-28 15:06:56 前言 本文以大众点评中餐馆的评论数据为例,实现一个简单的文本情感分析系统。 主要的技术环节: **收集数据。**这里包括爬虫爬取相应数据,并对数据进行清洗、过滤、抽取等。 **设计文本的表示模型,选择文本的特征。**使用向量来表示文本,首先需要对文
阅读全文
摘要:date: 2018-08-16 22:24:26 DStream的理解 Dstream是Spark Streaming中的一个最基本的抽象,代表了一系列连续的数据,本质上是一系列连续的RDD,对DStream进行操作,就是对RDD进行操作。 DStream可以认为是一个RDD的工厂,该DStrea
阅读全文