09 2019 档案
摘要:一、用户画像的介绍 用户画像的核心工作是为用户打标签,打标签的重要目的之一是为了让人能 够理解并且方便计算机处理,如,可以做分类统计:喜欢 iphone 的用户有多少? 喜欢 iphone 的人群中,男、女比例是多少?也可以做数据挖掘工作:利用聚类 算法分析,喜欢 iphone 的人年龄段分布情况。
阅读全文
摘要:1. 进入Hadoop环境(在Hadoop安装目录下运行命令、若配置好ssh则可以直接运行启动命令) 2. 启动hive进程(按照网上或林子雨的配置教程来就可以,不再赘述) 进入到shell 3.加载数据到hive数据库(在项目实操中不建议查询语句为select *,而应根据列名查询,若只是查看表结
阅读全文
摘要:一、解决方案 二、电商数据的爬取和清洗 2.1 Python爬取京东手机销售历史数据 1).环境 python3 环境、第三方包有 scrapy,re Pycharm 、NotePad++、SublimeText 等代码编辑工具 2).爬虫步骤 采用 scrapy 爬虫框架编写爬虫脚本,选取核心代码
阅读全文
摘要:一、概述 1.什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。 前边已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编
阅读全文
摘要:一、入门概念 1.1.什么是Hive Hive是有Facebook开源,用于解决海量数据结构化日志的数据统计,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。其本质是将HQL转化成为MR程序。 1)Hive处理的数据存储在HDFS上 2)Hive分析数
阅读全文
摘要:1. 大数据 大数据是指无法在一定时间范围内用常规工具进行捕捉、管理和处理的数据集合,需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 主要解决海量数据的存储和分析计算问题。大数据的特点为(4V):Volume大量、Velocity高速、Variet
阅读全文
摘要:知识结构图: kettle是一款开源的ETL(extract抽取、transform转换、load加载)工具,纯java编写,可以在Windows、Linux、Unix上运行,绿色无需安装,图形化界面拖拽操作,数据抽取高效稳定。 在公司中对公司数据库直接进行改动是大忌,所以需要将数据拷贝一份,ETL
阅读全文
摘要:在实训开始的第一天,公司老师简单了解了我们的java基础,并向我们介绍了在公司的一些代码习惯和一些java知识。 在实际项目中,企业内流行两种MVC开源框架,SSM及SSH框架。其中MVC即model(模型)-视图(view)-控制器(controller),将业务逻辑聚集到一个部件里,在改进和个性
阅读全文