摘要: 1. 整型   整型即整数,用 int 表示,在 Python3 中整型没有长度限制。 1.1 内置函数    1. int(num, base=None)   int( ) 函数用于将字符串转换为整型,默认转换为十进制。  &e 阅读全文
posted @ 2018-11-06 20:29 Hubery_Jun 阅读(333) 评论(0) 推荐(0) 编辑
摘要: 1. Python简介   Python 是一种解释型、面向对象、动态数据类型的高级程序设计语言,由Guido van Rossum于1989年底发明。 1.1 Python 介绍    1. 开发语言 低级语言: C、汇编等(机器码) 高级语言: Pytho 阅读全文
posted @ 2018-11-06 20:21 Hubery_Jun 阅读(363) 评论(0) 推荐(0) 编辑
摘要: 前提:使用 MySQL 作为存储器 import time from datetime import date, datetime from apscheduler.events import EVENT_JOB_EXECUTED, EVENT_JOB_ERROR from apscheduler. 阅读全文
posted @ 2022-01-15 22:30 Hubery_Jun 阅读(2271) 评论(0) 推荐(0) 编辑
摘要: 需求:spark 可以直接使用 textFile 读取 HDFS,但是不能判断 hdfs 文件是否存在,不过 pyspark 可以调用 java 程序,因此可以调用 FileSystem来实现: # coding=utf-8 from pyspark import SparkContext sc = 阅读全文
posted @ 2021-12-26 21:47 Hubery_Jun 阅读(1246) 评论(0) 推荐(0) 编辑
摘要: 需求:一次插入多条,获取每条记录的自增 ID # coding=utf-8 import traceback import pymysql db = pymysql.connect( host='localhost', port=3306, user="root", password="pwd", 阅读全文
posted @ 2021-12-26 21:47 Hubery_Jun 阅读(1542) 评论(0) 推荐(0) 编辑
摘要: 散列表(Hash table,也叫哈希表),是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做散列函数,存放记录的数组叫做散列表 # coding=utf-8 """ 需求:读取文件,每行为一段 j 阅读全文
posted @ 2021-12-26 21:46 Hubery_Jun 阅读(134) 评论(0) 推荐(0) 编辑
摘要: 一、背景 待破解网站 问题:xpath 提取章节发现字体加密 待破解的 HTML: <dd class="col-sm-3"> <a href="/books/34/34652/18381474.html"> <i></i><i></i>章 醒 </a> </dd> 二、破解 破解方案 正则提取 阅读全文
posted @ 2021-12-12 13:53 Hubery_Jun 阅读(518) 评论(0) 推荐(0) 编辑
摘要: 1. 安装 sbt cd /home/hadoop/apps mkdir sbt cd sbt cp ~/Download/sbt-1.3.8.tgz . // 解压 tar -zxvf sbt-1.3.8.tgz // 将 sbt-launch.jar 拷贝到外层目录 cp sbt/bin/sbt 阅读全文
posted @ 2021-12-05 20:41 Hubery_Jun 阅读(913) 评论(0) 推荐(0) 编辑
摘要: 在 Spark 中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User-Defined-Function):即最基本的自定义函数,类似 to_char,to_date等 UDAF(User- Defined Aggregation Funcation):用户自定义聚合函数, 阅读全文
posted @ 2021-12-05 20:40 Hubery_Jun 阅读(323) 评论(0) 推荐(0) 编辑
摘要: Spark 的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统: 文件格式:Text 文件、Json 文件、csv 文件、Sequence 文件以及 Object 文件 文件系统:本地文件系统、HDFS、Hbase 以及数据库 1. 读写 text/hdfs 文件 text/hdfs 阅读全文
posted @ 2021-12-05 20:40 Hubery_Jun 阅读(55) 评论(0) 推荐(0) 编辑
摘要: Spark SQL 可以从多种数据源读取数据,也可以将数据写入多种数据源,如:json、txt、hdfs、parquet、jdbc、hive 等 1. 通用读取与保存 读取 // 方法一,若没有指定文件格式,则默认为 parquet,也可以通过修改 spark.sql.sources.default 阅读全文
posted @ 2021-12-05 20:39 Hubery_Jun 阅读(495) 评论(0) 推荐(0) 编辑
摘要: 1. Spark SQL 概述 Spark SQL 是 spark 用来处理结构化数据的模块,它提供了2个编程抽象, 类似 Spark Core 中的 RDD: DataFrame DataSet 1.1 DataFrame 与 RDD 的区别 DataFrame 是一个分布式数据容器,类似于一张二 阅读全文
posted @ 2021-12-05 20:37 Hubery_Jun 阅读(124) 评论(0) 推荐(0) 编辑