摘要:
python采集某市政百姓信件内容 #coding:utf-8 import requests from lxml import etree import time import pymysql import datetime import urllib import json from IPyth 阅读全文
摘要:
相比较spark来说我感觉python还是更容易上手,今天在家开始了一些简单的爬虫,明天将要继续。 阅读全文
摘要:
今天在B站上面看了python学习视频 学习地址:https://www.bilibili.com/video/av14184325 菜鸟教程上面有详细的资料目录,在上面进行了一些简单的练习 早上起来的时候看了一部分考研单词,感觉明天还是会忘记。 明天还要继续 阅读全文
摘要:
今天看了实验的第二题感觉好难啊 2. 模拟图形绘制 对于一个图形绘制程序,用下面的层次对各种实体进行抽象。定义一个 Drawable 的特 质,其包括一个 draw 方法,默认实现为输出对象的字符串表示。定义一个 Point 类表示点, 其混入了 Drawable 特质,并包含一个 shift 方法 阅读全文
摘要:
今天观看桂尚谷大数据学习视频跟着学习Scala基础: https://www.bilibili.com/video/av39126512?from=search&seid=3479125343083328567 阅读全文
摘要:
今天根据老师发的资料完成了一道例题: 计算级数 请用脚本的方式编程计算并输出下列级数的前 n 项之和 Sn,直到 Sn 刚好大于或等于 q 为止,其中 q 为大于 0 的整数,其值通过键盘输入。 例如,若 q 的值为 50.0,则输出应为:Sn=50.416695。请将源文件保存为 阅读全文
摘要:
我今天参考网上的教程对spark进行了安装: 在spark官网上下载spark 地址: http://mirrors.hust.edu.cn/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz 安装spark 命令如下: sudo tar - 阅读全文
摘要:
今天我主要了解了spark的一些专业名词以及相关特点: spark简介: 最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算的大数据计算框架,可用于构建大型,低延迟的数据分析应用程序 2014年打破了hadoop保持的基准排序记录 Spark具有以下特点: 运行速度快:使用DAG 阅读全文
摘要:
今天完成的是将mapreduce清洗后的数据导入hive数据库: 第一步:需要熟练的知道如何操作hive数据库,一些简单的命令必须掌握。 进入hive数据库 然后创建hive数据库: 使用创建的hive数据库并创建表 将数据导入test表中: 查询hive数据库中test表格中的数据: 数据过多所以 阅读全文
摘要:
进行数据清洗首先开启Hadoop 然后在eclipse里面创建MapReduce项目 之后写代码: package 数据清洗hive; import java.io.IOException; import java.text.SimpleDateFormat; import java.util.Da 阅读全文