07 2022 档案
摘要:题目: 按照salary的累计和running_total,其中running_total为前N个当前( to_date = '9999-01-01')员工的salary累计和,其他以此类推。 具体结果如下Demo展示。。CREATE TABLE `salaries` ( `emp_no` int(
阅读全文
摘要:mysql安装网址:https://dev.mysql.com/downloads/windows/installer/ mysql安装与卸载:https://www.bilibili.com/video/BV1BT41157ML?p=1 在其中默认,服务器,客户端,自定义安装选项中,自定义可以安装
阅读全文
摘要:1.创建DataFrame 注意:默认索引从0开始,也可以自行创建索引。 2.提取含有指定字符的行 含有缺失值不能直接搜索,需要处理 不含缺失值,直接切片 3.输出df所有列名 4.将成绩列score改为popularity 5.统计每种编程语言出现次数、占比 6.将空值用上下值平均值填充 7.提取
阅读全文
摘要:1.使用含有关键字exists查找未分配具体部门的员工的所有信息 CREATE TABLE `employees` (`emp_no` int(11) NOT NULL,`birth_date` date NOT NULL,`first_name` varchar(14) NOT NULL,`las
阅读全文
摘要:参考: https://www.cnblogs.com/study-zero/p/15818284.html
阅读全文
摘要:Hive简介 Hive是基于Hadoop的数据仓库工具,可以对存储在HDFS上的文件数据集进行查询和分析处理。可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询语言 HiveQL,在做查询时将HQL语句转换成MapReduce任务,在Hadoop层进行执行。主要用途:做离线数据分析,比直接
阅读全文
摘要:1.数据治理 企业数据治理的重点与难点就是在于如何落地。数据治理不仅仅是一个技术问题,而是一个复杂的、系统性的管理问题! 数据治理是一个宽泛的概念,只要有数据的地方,就会存在数据治理的问题,由于历史原因,我们已经上了一个又一个的系统,我们可以选择从源头介入来进行治理,但这样的难度非常大,成本非常高,
阅读全文
摘要:1.什么是数据仓库? 数据仓库,英文名称Data Warehouse,简写为DW。数据仓库顾名思义,是一个很大的数据存储集合。 出于企业的分析性报告和决策支持目的而创建,对多样的业务数据进行筛选与整合。它为企业提供一定的BI(商业智能)能力,指导业务流程改进、监视时间、成本、质量以及控制。 数据仓库
阅读全文
摘要:源数据没有重复数据,构造重复数据: 去除重复值: drop_duplicates方法去重默认会删掉完全重复的行(每个值都一样的行),如果要删除指定列重复的数据,可以通过指定subset参数来实现: unique = repeat.drop_duplicates(subset=['投放地区','流量级
阅读全文
摘要:当相同字段时(列名一致),此时的合并,一般为上下合并,所以用concat比较好 当不同字段时,上下合并没有意义,应该为左右合并,concat虽然也可以左右合并,但是没有merge好理解(类似集合中的交并补) 并且merge的左右连接、内外连接和sql的含义一致,所以merge比较合适。 h1 = p
阅读全文
摘要:原始数据如下: 方法一:使用countifs函数进行条件计数 (1) 语文>80且数学>90: (2)语文大于90且为男性: (3)姓王的且数学>85: 方法二:使用sumproduc进行条件计数 (1) (2) (3) (4)
阅读全文
摘要:原始数据如下: excel选择>数据>重复项>删除重复项 情况一:筛选列如果选择全部列,就是所有列的数据重复,才会认为数据是重复值,进行删除 情况二:筛选列如果选择指定列,就是指定列的数据重复,就会认为数据是重复值,进行删除 比如:选择姓名,年龄,学历进行筛选结果如下: 注:还有一种方法,通过数据>
阅读全文
摘要:题目一: 用户行为日志表tb_user_log id uid artical_id in_time out_time sign_cin 1 101 0 2021-11-01 10:00:00 2021-11-01 10:00:42 1 2 102 9001 2021-11-01 10:00:00 2
阅读全文
摘要:pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False) 主要学习axis和join。 i
阅读全文
摘要:参考文章内容较多,一点一点写 https://mp.weixin.qq.com/s?__biz=MzU5Mjg2OTQ1MA%3D%3D&chksm=fe186225c96feb330e129a47ff979301f6dcdc042ce24fa7b23f61e21d6c13a30e25d00f469
阅读全文
摘要:一、折线图情况一:同一坐标轴import matplotlib.pyplot as pltplt.rcParams['font.family'] = 'SimSun' #不加这句无法显示中文x = [5,7,11,17,19,25]#点的横坐标k1 = [0.8222,0.918,0.9344,0.
阅读全文
摘要:L1与L2的原理和区别 正则化:对损失函数加上某种约束,减少模型的非线性程度,从而减少模型的方差提高泛化能力。 损失函数:用来估量你模型的预测值f(x)与真实值Y的不一致程度。 正则化常用的两种: L1是在损失函数基础上加上权重参数的绝对值的和。 L2是在损失函数基础上加上权重参数的平方和。 对于线
阅读全文
摘要:一、数据预处理 首先浏览数据大致情况: 对于交易失败,可以理解为缺失值;对于同一天内,多次交易的,视为重复值,保留最近的作为rencency。 查看订单状态的分类: 查看数据类型和缺失情况: 没有缺失值,一共28833条数据。 删除退款数据: 特征提取:RFM模型只需要买家昵称,付款时间和实付金额这
阅读全文
摘要:题目描述 对于一个长度为 n 字符串,我们需要对它做一些变形。 首先这个字符串中包含着一些空格,就像"Hello World"一样,然后我们要做的是把这个字符串中由空格隔开的单词反序,同时反转每个字符的大小写。 比如"Hello World"变形后就变成了"wORLD hELLO"。 输入描述: 给
阅读全文
摘要:页面数据如下: import requestsimport json#1.指定urlurl = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'word = input('enter a word:')param = {
阅读全文
摘要:待抓取页面: 编码如下: import requestsimport json#1.指定url url = 'https://movie.douban.com/j/chart/top_list' param = { 'type': '24', 'interval_id': '100:90', 'ac
阅读全文
摘要:题目描述: 假设你有一个数组prices,长度为n,其中prices[i]是股票在第i天的价格,请根据这个价格数组,返回买卖股票能获得的最大收益 1.你可以买入一次股票和卖出一次股票,并非每天都可以买入或卖出一次,总共只能买入和卖出一次,且买入必须在卖出的前面的某一天 2.如果不能获取到任何利润,请
阅读全文
摘要:#UA:User-Agent(请求载体的身份识别)#UA监测:门户网站的服务器会监测对应的请求的载体身份标识,若为浏览器则为正常请求,#反之,为不正常请求,服务端可能拒绝该请求。 #UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器 import requestsimport json#1.指
阅读全文
摘要:1.牛牛和牛妹一起玩密码游戏,牛牛作为发送方会发送一个4位数的整数给牛妹,牛妹接收后将对密码进行破解。 破解方案如下:每位数字都要加上3再除以9的余数代替该位数字,然后将第1位和第3位数字交换,第2位和第4位数字交换。 请输出牛妹破解后的密码。 输入描述: 输入一个四位数的整数。 输出描述: 输出破
阅读全文
摘要:1.requests模块:python中原生的一款基于网络请求的模块,功能强大,简单便捷。作用:模拟浏览器发请求 2.如何使用:(requestes编码流程)--指定url--发起请求--获取响应数据--持久化存储 3.环境安装pip install requests 4.实战编码--需求:爬取搜狗
阅读全文
摘要:题目: 牛牛现在有一个矩阵 需要将其深拷贝到另一个矩阵Y中,然后对矩阵Y的每个元素加1,最后输出X*Y的结果(直接输出列表即可)。 矩阵乘法:用左边矩阵的行向量,与右边矩阵的列向量求内积(对应元素相乘后相加)得到新矩阵相应行列位置的元素。 输入描述: 无 输出描述: [[168, 23, 34],
阅读全文
摘要:1.牛可乐学习了很多单词,但是他并不会灵活运用,只会将单词简单的连接成句子。请你模仿牛可乐连接单词的过程,将读入的字符串记录在列表中,先输出列表看看学习了哪些单词,然后拼接成一个用空格间隔开的句子并输出。 输入描述: 输入多个字符串,只包含大小写英文字母,单词之间用逗号隔开。 输出描述: 第一行输出
阅读全文
摘要:数据变换就是通过标准化、离散化与分层化让数据变得更加一致,将数据转换或统一成更适合机器训练或数据分析的形式。数据变换即对数据进行规范化处理,以便于后续的信息挖掘。常见的数据变换包括:特征二值化、特征归一化、连续特征变化,定性特征哑编码等。 一、二值化: 特征二值化的核心在于设定一个阈值,将特征与该阈
阅读全文
摘要:方法一: 1.下载稻壳阅读器:官网下载稻壳阅读器并安装。 2.复制文档地址 复制要下载的道客巴巴文档地址,粘贴到稻壳阅读器地址栏。 3.导出pdf格式 单击打印按钮,选择Microsoft Print to PDF打印机,单击打印按钮。保存成PDF文件即可。然后选择适当的转换工具转成word文档就可
阅读全文
摘要:1.通过波士顿矩阵对公司业务进行分析,企业良性发展的业务发展方向应该是____? 正确答案: B 金牛→明星→幼童 幼童→明星→金牛 狗类→幼童→明星 明星→幼童→金牛 业务发展的方向是幼童→明星→金牛,即把幼童培养成为明星,在明星的业务增长率下降时,要使它变为金牛。企业现金流向应为金牛→明星→幼童
阅读全文
摘要:题一:现有strings表如下: id指序列号; string列中存放的是字符串,且字符串中仅包含数字、字母和逗号类型的字符。 id string 1 2 3 10,A,B,C,D A,B,C,D,E,F A,11,B,C,D,E,G 请你统计每个字符串中逗号出现的次数cnt。 以上例子的输出结果如
阅读全文
摘要:SQL Server数据库和MySQL数据库有什么区别 1,优点分析:MYSQL短小精悍,容易上手,操作简单,免费供用的。相对其它数据库有特色又实用的语法多一些。SQL怎么也算是大型数据库,稳定,能做一般大系统的数据仓库,运行速度明显比MYSQL快N多(海量数据下这个优势显而易见)。 2,缺点分析:
阅读全文
摘要:1.背景 数据挖掘过程中,采集的原始数据里存在着各种不利于分析与建模工作的因素,比如数据不完整、数据矛盾、异常值等。这些因素不仅影响建模的执行过程,更有甚者在不知不觉间给出错误的建模结果,这就使得数据清洗显得尤为重要。但是数据清洗并不是数据预处理的全部内容,它只是第一步而已,接下来还有数据集成、数据
阅读全文
摘要:1.读取txt文件#方法一import numpy as np #numpy模块提供的数组,读写等操作速度比python自带的快很多,所以作为一个基础包导入data = np.genfromtxt('C:/machinelearning/face.txt', dtype=np.int32) #dty
阅读全文
摘要:1、数据集简介 MovieLens数据集包含多个用户对多部电影的评级数据,也包括电影元数据信息和用户属性信息。 这个数据集经常用来做推荐系统,机器学习算法的测试数据集。尤其在推荐系统领域,很多著名论文都是基于这个数据集的。(PS: 它是某次具有历史意义的推荐系统竞赛所用的数据集)。 下载地址为:ht
阅读全文
摘要:题目一:___是我们一般从生命周期的角度,描述了用户进入平台需经历的五个环节的典型的漏斗结构。 杜邦分析法 AARRR模型 帕累托法则 SWOT分析法 B项:AARRR是Acquisition、Activation、Retention、Revenue、Refer,这个五个单词的缩写,分别对应用户生命
阅读全文
摘要:示例1: 思路一:边界模拟法 这道题就是一个简单的模拟,我们想象有一个矩阵,从第一个元素开始,往右到底后再往下到底后再往左到底后再往上,结束这一圈,进入下一圈螺旋。 具体做法: step 1:首先排除特殊情况,即矩阵为空的情况。 step 2:设置矩阵的四个边界值,开始准备螺旋遍历矩阵,遍历的截止点
阅读全文
摘要:示例1 输入: 6 输出: 32 方法一:直接归纳:f(n) = f(n-1)+f(n-2)+f(n-3)+....+f(1)+1,f(1)=1,f(2)=2.则f(n)=2^(n-1). def step(n): return 2**(n-1) n=int(input()) print(step(
阅读全文
摘要:1.数据库 数据库:长期存储在计算机内、有组织、可共享的大量的数据的集合。数据库中的数据按照一定的数据模型组织、描述和存储,具有较小的冗余度、较高的数据独立性和易扩展性,并可为各种 用户共享。特点:永久存储、有组织、可共享。 数据库管理系统(DBMS):位于用户与操作系统之间的一层数据管理软件。主要
阅读全文