Hubery_Jun

摘要： 1. 整型整型即整数，用 int 表示，在 Python3 中整型没有长度限制。 1.1 内置函数 1. int（num, base=None） int( ) 函数用于将字符串转换为整型，默认转换为十进制。 &e 阅读全文

posted @ 2018-11-06 20:29 Hubery_Jun 阅读(335) 评论(0) 推荐(0) 编辑

摘要： 1. Python简介 Python 是一种解释型、面向对象、动态数据类型的高级程序设计语言，由Guido van Rossum于1989年底发明。 1.1 Python 介绍 1. 开发语言低级语言： C、汇编等（机器码）高级语言： Pytho 阅读全文

posted @ 2018-11-06 20:21 Hubery_Jun 阅读(365) 评论(0) 推荐(0) 编辑

2022年1月15日

APScheduler BackgroundScheduler 踩坑

摘要：前提：使用 MySQL 作为存储器 import time from datetime import date, datetime from apscheduler.events import EVENT_JOB_EXECUTED, EVENT_JOB_ERROR from apscheduler. 阅读全文

posted @ 2022-01-15 22:30 Hubery_Jun 阅读(2316) 评论(0) 推荐(0) 编辑

2021年12月26日

【Python】插入记录并获取其自增ID（PyMysql）

摘要：需求：一次插入多条，获取每条记录的自增 ID # coding=utf-8 import traceback import pymysql db = pymysql.connect( host='localhost', port=3306, user="root", password="pwd", 阅读全文

posted @ 2021-12-26 21:47 Hubery_Jun 阅读(1569) 评论(0) 推荐(0) 编辑

【大数据】PySpark 使用 FileSystem 操作 HDFS

摘要：需求：spark 可以直接使用 textFile 读取 HDFS，但是不能判断 hdfs 文件是否存在，不过 pyspark 可以调用 java 程序，因此可以调用 FileSystem来实现： # coding=utf-8 from pyspark import SparkContext sc = 阅读全文

posted @ 2021-12-26 21:47 Hubery_Jun 阅读(1263) 评论(0) 推荐(0) 编辑

【Python】散列的一种实现

摘要：散列表（Hash table，也叫哈希表），是根据关键码值(Key value)而直接进行访问的数据结构。也就是说，它通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度。这个映射函数叫做散列函数，存放记录的数组叫做散列表 # coding=utf-8 """ 需求：读取文件，每行为一段 j 阅读全文

posted @ 2021-12-26 21:46 Hubery_Jun 阅读(136) 评论(0) 推荐(0) 编辑

2021年12月12日

爬虫之字体解密

摘要：一、背景待破解网站问题：xpath 提取章节发现字体加密待破解的 HTML： <dd class="col-sm-3"> <a href="/books/34/34652/18381474.html"> <i></i><i></i>章醒 </a> </dd> 二、破解破解方案正则提取阅读全文

posted @ 2021-12-12 13:53 Hubery_Jun 阅读(535) 评论(0) 推荐(0) 编辑

2021年12月5日

sbt 编译打包（六）

摘要： 1. 安装 sbt cd /home/hadoop/apps mkdir sbt cd sbt cp ~/Download/sbt-1.3.8.tgz . // 解压 tar -zxvf sbt-1.3.8.tgz // 将 sbt-launch.jar 拷贝到外层目录 cp sbt/bin/sbt 阅读全文

posted @ 2021-12-05 20:41 Hubery_Jun 阅读(936) 评论(0) 推荐(0) 编辑

数据读取保存（五）

摘要： Spark 的数据读取及数据保存可以从两个维度来作区分：文件格式以及文件系统：文件格式：Text 文件、Json 文件、csv 文件、Sequence 文件以及 Object 文件文件系统：本地文件系统、HDFS、Hbase 以及数据库 1. 读写 text/hdfs 文件 text/hdfs 阅读全文

posted @ 2021-12-05 20:40 Hubery_Jun 阅读(58) 评论(0) 推荐(0) 编辑

Spark SQL UDF 函数（四）

摘要：在 Spark 中，也支持Hive中的自定义函数。自定义函数大致可以分为三种： UDF(User-Defined-Function)：即最基本的自定义函数，类似 to_char,to_date等 UDAF（User- Defined Aggregation Funcation）：用户自定义聚合函数，阅读全文

posted @ 2021-12-05 20:40 Hubery_Jun 阅读(327) 评论(0) 推荐(0) 编辑

Spark SQL 数据源（三）

摘要： Spark SQL 可以从多种数据源读取数据，也可以将数据写入多种数据源，如：json、txt、hdfs、parquet、jdbc、hive 等 1. 通用读取与保存读取 // 方法一，若没有指定文件格式，则默认为 parquet，也可以通过修改 spark.sql.sources.default 阅读全文

posted @ 2021-12-05 20:39 Hubery_Jun 阅读(517) 评论(0) 推荐(0) 编辑

Spark SQL （二）

摘要： 1. Spark SQL 概述 Spark SQL 是 spark 用来处理结构化数据的模块，它提供了2个编程抽象, 类似 Spark Core 中的 RDD： DataFrame DataSet 1.1 DataFrame 与 RDD 的区别 DataFrame 是一个分布式数据容器，类似于一张二阅读全文

posted @ 2021-12-05 20:37 Hubery_Jun 阅读(134) 评论(0) 推荐(0) 编辑

公告