王陸 - 博客园

25个Pandas高频实用技巧

摘要：参考翻译自：https://github.com/justmarkham/pandas-videos 导入案例数据集 import pandas as pd import numpy as np drinks = pd.read_csv('http://bit.ly/drinksbycountry'

512

0

SCI简介和写作顺序

摘要：一、SCI论文组成部分简介一篇完整的 sci 论文主要包括以下几个主要的组成部分，从前往后依次分别是 Title 就是说这个文章的标题其次是 Abstract 也就是这个文章的摘要。接下来是 Introduction 就是这篇文章的引言。 Introduction 的后面的话是 Methods，它

481

1

0

Hive性能优化

摘要：一、Hive表设计优化 1.1 分区表 1.1.1 Hive查询基本原理 Hive的设计思想是通过元数据将HDFS上的文件映射成表，基本的查询原理是当用户通过HQL语句对Hive中的表进行复杂数据处理和计算时，默认将其转换为分布式计算MapReduce程序对HDFS中的数据进行读取处理的过程。例如

1601

0

Hive实战

摘要： 1 需求描述统计硅谷影音视频网站的常规指标，各种TopN指标：统计视频观看数Top10 统计视频类别热度Top10 统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数统计视频观看数Top50所关联视频的所属类别Rank 统计每个类别中的视频热度Top10,以Music为

147

0

Hive函数重要应用案例（窗口函数、拉链表）

摘要：五、窗口函数应用实例 5.1 连续登陆用户需求当前有一份用户登录数据如下图所示，数据中有两个字段，分别是userId和loginTime。 userId表示唯一的用户ID，唯一标识一个用户，loginTime表示用户的登录日期，例如第一条数据就表示A在2021年3月22日登录了。现在需要对用户

275

0

SpringBoot+ MybatisPlus 实战——智慧校园管理系统

摘要：这个项目只有后端，没有前端部分，只适合用来复习SpringBoot后端知识和体系。 B站视频：https://www.bilibili.com/video/BV1AY4y1v7Xe/ https://pan.baidu.com/s/1efT4eY-dLBtNI-OTSUaWgA 提取码：yyds 一

1326

0

ROC曲线绘制

摘要： 1. 引入相关包使用matplotlib包作为绘图库，故要引入相关的包为了使画出的图更为符合期刊要求，这里引入SciencePlots。它是一个基于Matplotlib的补充包，里面主要包含了一些以.mplstyle为后缀的图表样式的配置文件。这样，你画图的时候只需要通过调用这些配置文件，就能

540

0

分类算法评价

摘要：分类算法有很多，不同分类算法又用很多不同的变种。不同的分类算法有不同的特定，在不同的数据集上表现的效果也不同，因此需要根据特定的问题和任务选择合适的算法进行求解。对分类算法给出客观的评价，对算法的选择很有必要。一、常用术语为了简化和统一考虑分类问题，我们假设分类目标只有两类，正例（positiv

193

0

Redis（七）新数据类型、新功能

摘要：第一章 Redis新数据类型 1.1 Bitmaps 简介现代计算机用二进制（位）作为信息的基础单位， 1个字节等于8位，例如“abc”字符串是由3个字节组成，但实际在计算机存储时将其用二进制表示， “abc”分别对应的ASCII码分别是97、 98、 99，对应的二进制分别是011000

116

0

Redis（六）应用问题解决

摘要：第一章缓存穿透 1.1 问题描述 key对应的数据在数据源并不存在，每次针对此key的请求从缓存获取不到，请求都会压到数据源，从而可能压垮数据源。比如用一个不存在的用户id获取用户信息，不论缓存还是数据库都没有，若黑客利用此漏洞进行攻击可能压垮数据库。 1.2 解决方案一个一定不存在缓存及查询不

83

0

Redis（五）主从复制、集群

摘要：第一章 Redis 主从复制 1.1 主从复制是什么主机数据更新后根据配置和策略，自动同步到备机的master/slaver机制，Master以写为主，Slave以读为主 1.2 主从复制能干嘛读写分离，性能扩展容灾快速恢复 1.3 怎么玩：主从复制拷贝多个redis.conf（redis

127

0

Redis（四）持久化

摘要：官网介绍：http://www.redis.io Redis 提供了2个不同形式的持久化方式。 RDB（Redis DataBase） AOF（Append Of File）第一章 RDB（Redis DataBase） 1.1 官网介绍 1.2 RDB是什么？在指定的时间间隔内将内存中的数据集

50

0

计算机组成原理——思维导图

摘要：第一章计算机系统概论冯诺依曼型计算机特点 1.计算机由运算器，控制器，存储器，输入和输出设备5部分组成 2.采用存储程序的方式，程序和数据放在同一个存储器中，并以二进制表示。 3.指令由操作码和地址码组成 4.指令在存储器中按执行顺序存放，由指令计数器(即程序计数器PC)指明要执行的指令所在的储

2097

0

2

一些Arcgis操作

摘要：多值提取至点 https://desktop.arcgis.com/zh-cn/arcmap/latest/tools/spatial-analyst-toolbox/extract-multi-values-to-points.htm 参数说明数据类型in_point_features要添加栅格值

107

0

JVM常见问题

摘要：第一章类加载机制 1.1 Java运行时一个类是什么时候被加载的？一个类在什么时候开始被加载，《Java虚拟机规范》中并没有进行强制约束，交给了虚拟机自己去自由实现，HotSpot虚拟机是按需加载，在需要用到该类的时候加载这个类； 1、Sun公司最早的 Classic虚拟机； 2、Sun/Ora

369

0

2

Trie 树

摘要： 1、Trie 树的定义 Trie 树（又叫「前缀树」或「字典树」）是一种用于快速查询「某个字符串/字符前缀」是否存在的数据结构。 Trie 是一颗非典型的多叉树模型。其核心是使用「边」来代表有无字符，使用「点」来记录是否为「单词结尾」以及「其后续字符串的字符是什么」。 2、Trie 树的结构 2.

152

0

csv转换为shp

摘要：一、csv文件内容 csv文件中记录了500行气象信息我们需要做的是利用Fiona包，将csv的内容读取，并导出为shp格式二、代码 import fiona from collections import OrderedDict import csv from fiona.crs import

419

0

基于ANUSPLIN的气象数据插值

摘要：这篇文章是对ANUSPLIN这个插值工具进行简单的介绍，项目demo可以参考： https://github.com/leeyang1991/ANUSPLIN 这个项目已经把从数据转换到脚本运行等一系列工作都用python实现了。至于ANUSPLIN中的一些细节和参数说明，参考自： https:/

3041

0

2

基于lightGBM的交易诈骗案例检测

摘要：一、数据预处理 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from sklearn.preprocessing import LabelEncoder fr

294

0

监督学习集成模型——对比与调参

摘要：一、三大Boosting算法对比 XGBoost、LightGBM和CatBoost都是目前经典的SOTA（state of the art）Boosting算法，都可以归入梯度提升决策树算法系列。这三个模型都是以决策树为支撑的集成学习框架，其中XGBoost是对原始版本GBDT算法的改进，而Lig

341

0

基于决策树、随机森林的宽带客户流失预测

摘要：一、数据探索 import pandas as pd import numpy as np # 1: 加载数据文件，查看数据信息 df = pd.read_csv('broadband.csv') df.head() # broadband 即可：0-离开，1-留存 | | CUST_ID | GE

325

0

监督学习集成模型——LightGBM

摘要： LightGBM的全称为Light Gradient Boosting Machine，即轻量的梯度提升机，由微软在其论文“LightGBM: A Highly Efficient Gradient Boosting Decision Tree”中提出，作为与XGBoost并驾齐驱的SOTA Boo

1717

0

监督学习集成模型——XGBoost

摘要：一、XGBoost原理 XGBoost的全称为eXtreme Gradient Boosting，即极度梯度提升树，由陈天奇在其论文“XGBoost: A Scalable Tree Boosting System：https://arxiv.org/pdf/1603.02754.pdf 中提出，一

796

0

支持向量机

摘要：一、背景介绍 1963年，贝尔实验室的Vanpik首次提出了支持向量机的理论模型和方法。 20世纪90年代，一些新兴方法如神经网络等研究遭受重大困难，支持向量机一度成为主流的统计学习模型。在早期的模式识别中，支持向量机有着非常广泛的应用。人脸检测、语音识别、图像分类、字符识别、文本分类等领域均有应用

274

0

监督学习集成模型——GBDT

摘要：一、梯度提升树提升是一类将弱学习器提升为强学习器的算法总称。提升树（boosting tree）就是弱学习器为决策树的提升方法。针对提升树模型，加性模型和前向分步算法的组合是典型的求解方式。当损失函数为平方损失和指数损失时，前向分步算法（通过一轮轮的弱学习器学习，利用前一个弱学习器的结果来更新后

303

0

监督学习集成模型——AdaBoost

摘要：一、集成学习与Boosting 集成学习是指将多个弱学习器组合成一个强学习器，这个强学习器能取所有弱学习器之所长，达到相对的最佳性能的一种学习范式。集成学习主要包括Boosting和Bagging两种学习框架。Boosting是一种将弱学习器提升为强学习器的算法，所以也叫提升算法。以分类问题为例

726

0

1

决策树算法

摘要：决策树（decision tree）是一类最常见、最基础的机器学习算法。决策树基于特征对数据实例按照条件不断进行划分，最终达到分类或回归的目的。决策树模型的核心概念包括特征选择方法、决策树构造过程和决策树剪枝。常见的特征选择方法包括信息增益、信息增益比和基尼指数（Gini index）,对应的三种

1081

0

监督学习集成模型——随机森林

摘要： Boosting与Bagging Boosting和Bagging都是机器学习中一种集成学习框架。集成学习的意思是将多个弱分类器组合成一个强分类器，这个强分类器能取所有弱分类器之所长，达到相对的最优性能。 Boosting的一般过程如下。以分类问题为例，给定一个训练集，训练弱分类器要比训练强分类器容

192

0

新冠疫情防控指挥作战平台项目

摘要：第一章项目介绍 1.1 项目背景新冠疫情防控指挥作战平台项目实现了疫情态势、基层防控、物资保障、复工复产等多个专题板块，包括新冠疫情防控指挥大屏子系统和新冠疫情防控指挥平台后台管理子系统。通过新冠疫情防控指挥作战平台的建设及实施，使得从局部作战到中心指挥，让战“疫”指挥官对疫情防控心中有“数”

346

0

自适应模糊神经网络ANFIS

摘要：最早关于自适应模糊神经网络推理系统( Adaptive Neuro Fuzzy Inference System，ANFIS)的文章应该是Jyh-Shing Roger Jang 于1993年发表的《ANFIS : Adaptive-Network-Based Fuzzy Inference Sys

3833

0

王陸

我可不是为了被全人类喜欢才活着的，只要对于某一个人来说我是必要的，我就能活下去。

公告

常用链接

积分与排名

随笔分类

随笔档案

阅读排行榜

最新评论