2019 年 9月随笔档案 - 枯藤老樹昏鴉

大数据技术暑期实习八___构建用户画像（SQL语句打标签）

摘要：一、用户画像的介绍用户画像的核心工作是为用户打标签，打标签的重要目的之一是为了让人能够理解并且方便计算机处理，如，可以做分类统计：喜欢 iphone 的用户有多少？喜欢 iphone 的人群中，男、女比例是多少？也可以做数据挖掘工作：利用聚类算法分析，喜欢 iphone 的人年龄段分布情况。阅读全文

posted @ 2019-09-11 09:34 枯藤老樹昏鴉阅读(2397) 评论(0) 推荐(0) 编辑

大数据技术暑期实习七___互联网营销精准决策(加载数据源)

摘要：1. 进入Hadoop环境(在Hadoop安装目录下运行命令、若配置好ssh则可以直接运行启动命令) 2. 启动hive进程（按照网上或林子雨的配置教程来就可以，不再赘述）进入到shell 3.加载数据到hive数据库（在项目实操中不建议查询语句为select *，而应根据列名查询，若只是查看表结阅读全文

posted @ 2019-09-11 08:47 枯藤老樹昏鴉阅读(258) 评论(0) 推荐(0) 编辑

大数据技术暑期实习六___互联网营销精准决策(手机数据爬取)

摘要：一、解决方案二、电商数据的爬取和清洗 2.1 Python爬取京东手机销售历史数据 1）.环境 python3 环境、第三方包有 scrapy，re Pycharm 、NotePad++、SublimeText 等代码编辑工具 2）.爬虫步骤采用 scrapy 爬虫框架编写爬虫脚本，选取核心代码阅读全文

posted @ 2019-09-10 11:46 枯藤老樹昏鴉阅读(353) 评论(0) 推荐(0) 编辑

大数据技术暑期实习五___SparkSQL

摘要：一、概述 1.什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。前边已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编阅读全文

posted @ 2019-09-09 17:07 枯藤老樹昏鴉阅读(184) 评论(0) 推荐(0) 编辑

大数据技术暑期实习四___Hive安装部署、案例分析、元数据配置MySQL及Hive常用操作

摘要：一、入门概念 1.1.什么是Hive Hive是有Facebook开源，用于解决海量数据结构化日志的数据统计，基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。其本质是将HQL转化成为MR程序。 1）Hive处理的数据存储在HDFS上 2）Hive分析数阅读全文

posted @ 2019-09-06 14:16 枯藤老樹昏鴉阅读(308) 评论(0) 推荐(0) 编辑

大数据技术暑期实习三___大数据和Hadoop的大致概念及Ubuntu环境下Hadoop搭建及应用

摘要：1. 大数据大数据是指无法在一定时间范围内用常规工具进行捕捉、管理和处理的数据集合，需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决海量数据的存储和分析计算问题。大数据的特点为（4V）：Volume大量、Velocity高速、Variet 阅读全文

posted @ 2019-09-04 19:23 枯藤老樹昏鴉阅读(374) 评论(0) 推荐(0) 编辑

大数据技术暑期实习二___Kettle技术认识及简单案例操作

摘要：知识结构图： kettle是一款开源的ETL（extract抽取、transform转换、load加载）工具，纯java编写，可以在Windows、Linux、Unix上运行，绿色无需安装，图形化界面拖拽操作，数据抽取高效稳定。在公司中对公司数据库直接进行改动是大忌，所以需要将数据拷贝一份，ETL 阅读全文

posted @ 2019-09-04 15:42 枯藤老樹昏鴉阅读(592) 评论(0) 推荐(0) 编辑

大数据技术暑期实习一___简单了解企业内java情况

摘要：在实训开始的第一天，公司老师简单了解了我们的java基础，并向我们介绍了在公司的一些代码习惯和一些java知识。在实际项目中，企业内流行两种MVC开源框架，SSM及SSH框架。其中MVC即model（模型）-视图（view）-控制器（controller），将业务逻辑聚集到一个部件里，在改进和个性阅读全文

posted @ 2019-09-04 14:54 枯藤老樹昏鴉阅读(250) 评论(0) 推荐(0) 编辑

王敬斯

09 2019 档案

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜