08 2022 档案

摘要:1. select name,family,addressfrom lianjiewhere (name,family) in(select name,familyfrom lianjiegroup by name,familyhaving count(distinct address) > 1) 阅读全文
posted @ 2022-08-31 16:48 萧六弟 阅读(19) 评论(0) 推荐(0) 编辑
摘要:1.复购率 SELECT count( t.userid) 总共消费人数, count(DISTINCT case when t.`消费次数`>1 then t.userid else null end) as 总共复购人数, concat(round(count(DISTINCT case whe 阅读全文
posted @ 2022-08-30 22:48 萧六弟 阅读(44) 评论(0) 推荐(0) 编辑
摘要:1.辛普森悖论 含义: 样本集合进行分组研究时,在分组比较中都占优势的一方,在总评中有时反而是失势的一方,这种有悖常理的现象,就成为 “辛普森悖论”。 比如 坏处: 对于那些不怀好意的人,他们很容易对数据进行拆分或归总,得到一个对自己有利的统计数据,从而误导甚至操纵别人。 辛普森悖论让我想起我们平时 阅读全文
posted @ 2022-08-29 17:17 萧六弟 阅读(117) 评论(0) 推荐(0) 编辑
摘要:题目一: 有2堆宝石,A和B一起玩游戏,假设俩人足够聪明,规则是每个人只能从一堆选走1个或2个或3个宝石,最后全部取玩的人获胜,假设2堆宝石的数目为12和13,请问A怎么可以必胜? 让A先取 让B先取 没有策略能够让A必胜 说法都不正确 答案: A只要取完宝石后给B留4的倍数就能赢,留下4的倍数,B 阅读全文
posted @ 2022-08-29 11:47 萧六弟 阅读(502) 评论(0) 推荐(0) 编辑
摘要:1.目标 A/B 测试一般是比较实验组和对照组在某些指标上是否存在差异,当然更多时候是看实验组相比对照组某个指标表现是否更好。ABTest是希望通过如何改进新版优于旧版,而不是通过ABTest证明新版弱于旧版而下线实验,所以需要有效的分析数据。 2.计算公式 统计学里有最小样本量计算的公式,公式如下 阅读全文
posted @ 2022-08-28 22:03 萧六弟 阅读(385) 评论(0) 推荐(0) 编辑
摘要:学习来源: https://blog.csdn.net/qq_22790151/article/details/109700735 https://blog.csdn.net/fei347795790/article/details/98620124 https://zhuanlan.zhihu.c 阅读全文
posted @ 2022-08-28 13:02 萧六弟 阅读(39) 评论(0) 推荐(0) 编辑
摘要:1、group by代替distinct去重 2、减少模糊查询如like,以最大化利用索引 3、表连接前利用where筛选 4、减少不必要的字段查询 5.尽量使用select 具体字段代替select * 6、防止数据倾斜 7、合理利用分区 8、使用union all减少连接次数,且方便后续优化 9 阅读全文
posted @ 2022-08-27 23:09 萧六弟 阅读(17) 评论(0) 推荐(0) 编辑
摘要:1.留存指标 新用户的留存和所有用户留存不太一样 方法一:python import pandas as pddf=pd.read_csv('user_behavior.csv')df=df[['user_id','timestamps']]df['timestamps']=pd.to_dateti 阅读全文
posted @ 2022-08-27 21:35 萧六弟 阅读(39) 评论(0) 推荐(0) 编辑
摘要:1.计算活跃指标每日pv,uv Page View(页面访问量) 又叫做页面浏览量、点击量。 通常是衡量一个网络新闻频道或网站甚至一条网络新闻的主要指标。用户每打开一个网站页面就被记录1次。用户多次打开同一页面,浏览量值累计。 Unique Visitor(独立访客) 一般地,我们可以用两个数值标准 阅读全文
posted @ 2022-08-26 17:13 萧六弟 阅读(36) 评论(0) 推荐(0) 编辑
摘要:题目1: 在牛客实习广场有很多公司开放职位给同学们投递,同学投递完就会把简历信息存到数据库里。 现在有简历信息表(resume_info),部分信息简况如下: id job date num 1 C++ 2025-01-02 53 2 Python 2025-01-02 23 3 Java 2025 阅读全文
posted @ 2022-08-26 12:38 萧六弟 阅读(42) 评论(0) 推荐(0) 编辑
摘要:一点一点学: 学习来源:https://zhuanlan.zhihu.com/p/285676746 数据来源:https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1 先从1亿数据中选择10万数据进行分析: 数据清洗 方法一 阅读全文
posted @ 2022-08-25 20:52 萧六弟 阅读(41) 评论(0) 推荐(0) 编辑
摘要:题目: 牛客每次考试完,都会有一个成绩表(grade),如下: id job score 1 C++ 11001 2 C++ 11000 3 C++ 9000 4 JAVA 12000 5 JAVA 13000 6 B 12000 7 B 11000 8 B 9999 第1行表示用户id为1的用户选 阅读全文
posted @ 2022-08-25 11:03 萧六弟 阅读(28) 评论(0) 推荐(0) 编辑
摘要:1.查询所有教师授课的学生上课平均人数超过全部课程平均人数的教师姓名 表定义 1: teachers (教师表) 列名 类型 注释 id int unsigned 主键 name varchar 讲师姓名 email varchar 讲师邮箱 age int 讲师年龄 country varchar 阅读全文
posted @ 2022-08-24 20:31 萧六弟 阅读(195) 评论(0) 推荐(0) 编辑
摘要:1.多列动态查找 2.多表混合查找 3.跨表查找 4.反向查找 阅读全文
posted @ 2022-08-24 16:07 萧六弟 阅读(7) 评论(0) 推荐(0) 编辑
摘要:1.牛客每次考试完,都会有一个成绩表(grade),如下: id job score 1 C++ 11001 2 C++ 10000 3 C++ 9000 4 Java 12000 5 Java 13000 6 JS 12000 7 JS 11000 8 JS 9999 9 Java 12500 第 阅读全文
posted @ 2022-08-24 11:56 萧六弟 阅读(80) 评论(0) 推荐(0) 编辑
摘要:题目一: 4 2 12 28 80 ( ) 正确答案: C 你的答案: 空 (错误) 124 96 216 348 解析 解析:12=(4+2)×2,28=(2+12)×2,80=(12+28)×2,(216)=(28+80)×2 题目二: 1/2,1,1,( ),9/11,11/13 正确答案: 阅读全文
posted @ 2022-08-23 20:09 萧六弟 阅读(232) 评论(0) 推荐(0) 编辑
摘要:现有试卷作答记录表exam_record(uid用户ID, exam_id试卷ID, start_time开始作答时间, submit_time交卷时间, score得分),示例数据如下: id uid exam_id start_time submit_time score 1 1001 9001 阅读全文
posted @ 2022-08-23 16:08 萧六弟 阅读(42) 评论(0) 推荐(0) 编辑
摘要:1.Acquisition:获取用户:运营一款产品的第一步就是获取用户即推广 首先要分析自己产品的特性以及目标人群,摸清楚每个渠道量级与用户质量。 渠道量级指标:曝光量、点击、下载、安装、激活(注册激活,主动激活、推送激活、交易激活)、累计新增。 渠道质量指标:CTR,激活率,安装率,CPA等每用户 阅读全文
posted @ 2022-08-21 21:49 萧六弟 阅读(235) 评论(0) 推荐(0) 编辑
摘要:1.多个sheet表同时操作 (1)选中下方任意一个工作表,右键,全部工作表:然后可以操作任意一个工作表,其余也会跟着变动 (2)若要取消某些选中,按住ctrl,左击即可 2.if 单条件判断 =IF(AC3>0,"增加","减少"),也可以用来分类 多条件判断,and连接 =IF(AND(O3<> 阅读全文
posted @ 2022-08-18 22:05 萧六弟 阅读(28) 评论(0) 推荐(0) 编辑
摘要:vlookup函数的使用 1.名称的比对,关键是从业务场景抽象出筛选查找原理: 2.替换 3.多条件筛选&符号,构建辅助列合并条件 4.分组计数,汇总 (1)数据透视表 (2)=COUNTIF(L:L,M2),第一个参数是区域,第二个参数为条件。 阅读全文
posted @ 2022-08-16 21:29 萧六弟 阅读(19) 评论(0) 推荐(0) 编辑
摘要:针对简单情况1的问题: 源数据创建一个辅助列: 再对A系统中更改vlookup第一个参数,保证搜索的唯一性,源数据修改为整张表范围,后面就不用修改了。 如果说系统的位置发生了变化,比如C系统: 需要修改vlookup的第1个参数和match的第1个参数 总结: (1)系统位置相同,可以直接复制公式, 阅读全文
posted @ 2022-08-14 22:42 萧六弟 阅读(11) 评论(0) 推荐(0) 编辑
摘要:模拟需求: 这是源数据:包含所有系统和所有的指标,在一张excel表里 系统 地区 指标4 指标2 指标5 指标1 指标3 A 苏州 11 3 7 10 13 A 杭州 4 5 3 13 3 A 广州 10 10 14 7 14 A 深圳 11 3 13 7 5 A 南京 10 7 13 15 8 阅读全文
posted @ 2022-08-14 21:38 萧六弟 阅读(17) 评论(0) 推荐(0) 编辑
摘要:需求:excel批量创建多个sheet表,并且指定命名 首先在excel中sheet1表中把要命名的表名字写好: 问题: 不合规范原因是新建表为自动默认创建3个sheet表,sheet1名称列中包含了标题,并且代码不能重复执行,会覆盖以前的表名,所以修改如下: 大功告成! 参考: https://z 阅读全文
posted @ 2022-08-14 10:42 萧六弟 阅读(17) 评论(0) 推荐(0) 编辑
摘要:需求:把第2列数据按照第1列的顺序进行排列,以便于筛选 1.excel自定义排序 因为不是对数值进行排序,因此没有升序和降序的说法。 需要在左上角文件-->选项-->自定义序列-->录入或者从单元格中导入序列 然后选择需要处理的数据-->点击排序,主要关键字就是地区 2.python 排序 或者通过 阅读全文
posted @ 2022-08-13 23:18 萧六弟 阅读(25) 评论(0) 推荐(0) 编辑
摘要:需求: 将同一个身份证出现不同地市的提取出来,其余的提取出来。例如: 广州 id1;广州 id2;深圳 id1;广州 id2;惠州 id3;就是把id1对应的两条数据取出来,其余的取出来。 数据共有16673条,字段如下: 解决一:mysql提取数据 经过尝试加深了对mysql的理解:group b 阅读全文
posted @ 2022-08-13 17:30 萧六弟 阅读(41) 评论(0) 推荐(0) 编辑
摘要:题目1: 好评率是用户对产品评价的重要指标。现在需要统计2019年3月1日到2019年3月31日,用户'小张'提交的"母婴"类目"DW"品牌的好评率(好评率=“好评”评价量/总评价量),请写出SQL/Python/其他语言查询语句:用户评价详情表:a字段:id(评价id,主键),create_tim 阅读全文
posted @ 2022-08-06 17:53 萧六弟 阅读(36) 评论(0) 推荐(0) 编辑
摘要:题目:现有用户打车记录表tb_get_car_record id uid city event_time end_time order_id 1 101 北京 2021-09-25 08:28:10 2021-09-25 08:30:00 9011 2 102 北京 2021-09-25 09:00 阅读全文
posted @ 2022-08-05 21:26 萧六弟 阅读(170) 评论(0) 推荐(0) 编辑
摘要:1.数学函数 SELECT id,is_blacklist,round(is_blacklist,1) as a, ceil(is_blacklist) as b, floor(is_blacklist) as cfrom user 2.字符串函数 select first_name as '名字' 阅读全文
posted @ 2022-08-05 18:14 萧六弟 阅读(50) 评论(0) 推荐(0) 编辑
摘要:1.连续数字填充 2.单元格内换行 ALT+enter 单元格内换行 3.快捷求和 求和快捷键「ALT + =」能够用最快的速度,一次得到所有数据的和 4.快速选择 (1)点击已编辑的单元格,注意非空白(2)ctrl + A (1)点击起点(2)按住shift(3)点击终点 5.问答 1、excel 阅读全文
posted @ 2022-08-05 15:23 萧六弟 阅读(427) 评论(0) 推荐(0) 编辑
摘要:Mysql插入中文数据报错,修改对应utf8编码:https://www.cnblogs.com/Amine/p/15463871.html 1.题目:运营想要了解每个学校答过题的用户平均答题数量情况,请你取出数据。 示例:用户信息表 user_profile,其中device_id指终端编号(认为 阅读全文
posted @ 2022-08-05 11:29 萧六弟 阅读(129) 评论(0) 推荐(0) 编辑
摘要:Hive创建删除数据库和Mysql存在许多相似之处,也有一些不同之处 创建数据库 Create database lagou 查看数据库 Show databases 删除数据库 (1)删除空数据库 Drop datebase 数据库名 drop database 学生 (2)如果删除的数据库不存在 阅读全文
posted @ 2022-08-04 21:07 萧六弟 阅读(44) 评论(0) 推荐(0) 编辑
摘要:sum函数 作用:求和 公式: =sum(单元格区域/多个固定数值) 作用:计算选中区域数字个数 count函数 公式: =count(单元格区域/多个固定数值) 作用:对数值进行四舍五入 公式: =round(num需要四舍五入的单元格/数值,num_digits需要取几位) round函数 当n 阅读全文
posted @ 2022-08-04 16:17 萧六弟 阅读(896) 评论(0) 推荐(0) 编辑
摘要:题目一:按成绩排名 create Table `scores` ( `id` int(2) not null, `score` decimal(6,2) not null ); insert into scores(id,score) values (1,3.50),(2,3.65),(3,4.00 阅读全文
posted @ 2022-08-04 13:03 萧六弟 阅读(46) 评论(0) 推荐(0) 编辑
摘要:1.现在有一个需求,让你统计正常用户发送给正常用户邮件失败的概率: 有一个邮件(email)表,id为主键, type是枚举类型,枚举成员为(completed,no_completed),completed代表邮件发送是成功的,no_completed代表邮件是发送失败的。简况如下: 第1行表示为 阅读全文
posted @ 2022-08-03 18:59 萧六弟 阅读(102) 评论(0) 推荐(0) 编辑
摘要:1、屏蔽错误值(IFERROR) 错误则返回空字符串 2、关键字词查找(通配符 *) 3、去除空格查找(SUBSTITUTE) 4.多列动态查找(match) 注意vlookup向下拖拽,列定行不定,match是向右拖拽,行定列不定 阅读全文
posted @ 2022-08-02 12:05 萧六弟 阅读(25) 评论(0) 推荐(0) 编辑
摘要:1.现有电影信息表film,包含以下字段: 字段 说明 film_id 电影id title 电影名称 description 电影描述信息 有类别表category,包含以下字段: 字段 说明 category_id 电影分类id name 电影分类名称 last_update 电影分类最后更新时 阅读全文
posted @ 2022-08-01 19:33 萧六弟 阅读(151) 评论(0) 推荐(0) 编辑
摘要:1、精确匹配(精确查找) G4为返回列数,C3-E8为查找区域,3为区域第3列,0表示精确查找 或者跨sheet表进行查询,第2个参数变成对应sheet表中数据即可 https://xinzhi.wenda.so.com/a/1521709101617752 2、近似匹配(区间查找) 3、多条件查找 阅读全文
posted @ 2022-08-01 19:19 萧六弟 阅读(102) 评论(0) 推荐(0) 编辑
摘要:函数语法: DATEDIF(start_date,end_date,unit) 参数1:start_date,表示起始日期 参数2:end_date,表示结束日期 参数1和参数2可以是带引号的文本串(例如:"2014-1-1")、系列号或者其他公式或函数的结果 参数3:unit为所需信息的返回时间单 阅读全文
posted @ 2022-08-01 18:03 萧六弟 阅读(426) 评论(0) 推荐(0) 编辑
摘要:1.几个概念'''聚焦爬虫:爬取页面中的页面内容 --编码流程: -指定url -发起请求 -获取相应数据 -数据解析 -持久化存储数据解析分类: --正则 --bs4 --xpath(重点)数据解析原理概述: --解析的局部文本内容都会在标签之间或者标签对应的属性中进行存储 --1.进行指定标签的 阅读全文
posted @ 2022-08-01 12:49 萧六弟 阅读(24) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示