摘要:
当特征数量或者模型数量很多的时候,使用`PySpark`去计算相关风控指标会节省很多的时间。网上关于使用`PySpark`计算相关风控指标的资料较少,尤其是PSI计算不管是国内还是国外相关的代码都没有正确的,这里抛砖引玉,写了三个风控常用的指标AUC,KS和PSI相关的计算方法,供参考。 # AUC 阅读全文
摘要:
写在重装前 重装前注意备份系统盘(一般是C盘)中的数据 你需要一个U盘 可以把操作系统看做成一个软件 软件运行的时候无法删除软件 一般情况下系统盘是C盘 步骤 重装系统主要分为以下步骤,本文主要是以重装Windows 10为例,其他版本的Windows可能会有写出入,但大同小异。 下载系统 下载系统 阅读全文
摘要:
准备工作 下载docker:https://download.docker.com/linux/static/stable/x86_64 我下载的是docker-20.10.6.tgz 下载docker-compose:https://github.com/docker/compose/releas 阅读全文
摘要:
有关于使用Atom进行Python开发的网上资料比较少,最近发现使用Atom结合Hydrogen插件进行Python开发,尤其是数据挖掘相关的工作,整体体验要好于Vscode,Vscode虽然说也有连接Jupyter的工具,但是交互式的开发Hydrogen体验更好。 这里放了个动图来展示一下Hydr 阅读全文
摘要:
CSV无可厚非的是一种良好的通用文件存储方式,几乎任何一款工具或者编程语言都能对其进行读写,但是当文件特别大的时候,CSV这种存储方式就会变得十分缓慢且低效。本文将介绍几种在Python中能够代替CSV这种格式的其他文件格式,并对比每种文件存储的时间与大小。 先说结论,parquet是最好的文件存储 阅读全文
摘要:
1.第一行 写#!/bin/bash,#! 告诉系统其后路径所指定的程序即是解释此脚本文件的 bash 程序。 2.运行脚本 chmod +x ./test.sh #使脚本具有执行权限 ./test.sh #执行脚本 3.变量设置 your_name="harry" 注意,变量名和等号之间不能有空格 阅读全文
摘要:
常用库 import gc import os import csv import time import math import datetime import collections import pandas as pd import numpy as np from tqdm import 阅读全文
摘要:
时间格式转换 日期格式→Unix时间戳 转10位Unix时间戳 数据:2020-07-23 15:01:13 Presto:select to_unixtime(cast('2020-07-23 15:01:13' as timestamp)) Hive:select unix_timestamp( 阅读全文
摘要:
二进制小数 首先复习进位计数制的要素: 数码:用来表示进制数的元素。比如 二进制数的数码为:0,1 十进制数的数码为:0,1,2,3,4,5,6,7,8,9 十六进制数的数码为:0,1,2,3,4,5,6,7,8,9,A,B,C,D,E,F 基数:数码的个数。比如 二进制数的基数为2 十进制数的基数 阅读全文
摘要:
FileChannel是什么 它是用于读取、写入、映射和操作文件的通道。除了熟悉的字节通道读取,写入和关闭操作之外,此类还定义了以下特定于文件的操作: 可以以不影响通道当前位置的方式在文件中的绝对位置读取或写入字节。 文件的区域可以直接映射到内存中。 对于大文件,这通常比调用通常的读取或写入方法要有 阅读全文