摘要:
四、shell编程 1、案例 案例01:基本语法 案例02:局部变量 案例03:特殊字符 案例04:运算符 例05:if语句 案例06:for语句 案例07:函数 阅读全文
摘要:
名称 大二暑假学习总结03 所花时间 30h左右 有效代码量 1000行左右 博客量 5篇 收获和目标 收获: 前几天学习了大数据的一些基础,学习了处理一些数据库已有的数据, 包括kettle,Superset 等工具的使用,收获还是很多的。 目标: 开始学习大数据框架Hadoop 阅读全文
摘要:
三、BI数据可视化平台—Superset Superset是一款开源的现代化企业级BI。它是目前开源的数据分析和可视化工具中比较好用的,功能简单但可以满足我们对数据的基本需求,支持多种数据源,图表类型多,易维护,易进行二次开发。 1、入门案例:将数据库里的数据按照要求进行可视化展示 摘要:通过跟随视 阅读全文
摘要:
二、可视化ETL平台——Kettle ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经(extrac过抽取t)、转换(transform)、加载(load)至目的端的过程。ETL是将业务系统的数据经过抽取、清洗、转换之后加载到数据仓库的过程,目的是将分散、零 阅读全文
摘要:
7、压缩、解压 ①解压:tar -zxvf 压缩文件 [-C] [指定解压目录] tar -zxvf redis-3.2.8.tar.gz #将文件解压到当前目录 tar -zxvf redis-3.2.8.tar.gz -C /root/dir #将文件解压到指定目录 ②压缩:tar -c[z]v 阅读全文
摘要:
一、Linux终端命令 1、 显示文件列表命令:ls 例: ls #查看当前目录内容 (缺点: 隐藏文件看不到) ls -a #查看当前目录内容 ,包括隐藏文件 ls -al #查看目录内容的详细信息(查看文件类型、权限、大小等) ls -lh #查看目录内容的详细信息,以K,M,G方式显示文件大小 阅读全文
摘要:
名称 大二暑假学习总结02 所花时间 25h左右 有效代码量 2500行左右 博客量 5篇 收获和目标 收获: 1、python语法、函数、正则等 2、爬虫的相关学习,完成了5个有关爬虫的项目实战 3、大数据相关环境的安装以及配置,包括:VMware、Centos、 finalshell等 目标: 阅读全文
摘要:
1、爬取豆瓣Top250电影信息以文本形式保存 数据:豆瓣电影 2、代码 import requests from bs4 import BeautifulSoup def get_movie(): headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 阅读全文
摘要:
1、爬取QQ音乐榜单数据并存入数据库(MySQL) 2、代码 import requests import json from bs4 import BeautifulSoup import pymysql def get_html(): url='https://u.y.qq.com/cgi-bi 阅读全文
摘要:
1、爬取链家二手房信息,存入数据库(MySQL)数据来源:链家 2、数据库表结构 3、代码 '''使用面向对象的方式,搭建项目框架''' import requests from bs4 import BeautifulSoup import pymysql class LianJiaSpider( 阅读全文