2022 年 8月随笔档案 - 萧六弟

练习

摘要：1. select name,family,addressfrom lianjiewhere (name,family) in(select name,familyfrom lianjiegroup by name,familyhaving count(distinct address) > 1) 阅读全文

posted @ 2022-08-31 16:48 萧六弟阅读(19) 评论(0) 推荐(0) 编辑

练习

摘要：1.复购率 SELECT count( t.userid) 总共消费人数, count(DISTINCT case when t.`消费次数`>1 then t.userid else null end) as 总共复购人数, concat(round(count(DISTINCT case whe 阅读全文

posted @ 2022-08-30 22:48 萧六弟阅读(44) 评论(0) 推荐(0) 编辑

索引学习

摘要：1.辛普森悖论含义：样本集合进行分组研究时，在分组比较中都占优势的一方，在总评中有时反而是失势的一方，这种有悖常理的现象，就成为 “辛普森悖论”。比如坏处：对于那些不怀好意的人，他们很容易对数据进行拆分或归总，得到一个对自己有利的统计数据，从而误导甚至操纵别人。辛普森悖论让我想起我们平时阅读全文

posted @ 2022-08-29 17:17 萧六弟阅读(117) 评论(0) 推荐(0) 编辑

学习4

摘要：题目一：有2堆宝石，A和B一起玩游戏，假设俩人足够聪明，规则是每个人只能从一堆选走1个或2个或3个宝石，最后全部取玩的人获胜，假设2堆宝石的数目为12和13，请问A怎么可以必胜？让A先取让B先取没有策略能够让A必胜说法都不正确答案： A只要取完宝石后给B留4的倍数就能赢，留下4的倍数，B 阅读全文

posted @ 2022-08-29 11:47 萧六弟阅读(502) 评论(0) 推荐(0) 编辑

AB test 学习

摘要：1.目标 A/B 测试一般是比较实验组和对照组在某些指标上是否存在差异，当然更多时候是看实验组相比对照组某个指标表现是否更好。ABTest是希望通过如何改进新版优于旧版，而不是通过ABTest证明新版弱于旧版而下线实验，所以需要有效的分析数据。 2.计算公式统计学里有最小样本量计算的公式，公式如下阅读全文

posted @ 2022-08-28 22:03 萧六弟阅读(385) 评论(0) 推荐(0) 编辑

AARRR:2.4

摘要：学习来源： https://blog.csdn.net/qq_22790151/article/details/109700735 https://blog.csdn.net/fei347795790/article/details/98620124 https://zhuanlan.zhihu.c 阅读全文

posted @ 2022-08-28 13:02 萧六弟阅读(39) 评论(0) 推荐(0) 编辑

sqL优化学习

摘要：1、group by代替distinct去重 2、减少模糊查询如like，以最大化利用索引 3、表连接前利用where筛选 4、减少不必要的字段查询 5.尽量使用select 具体字段代替select * 6、防止数据倾斜 7、合理利用分区 8、使用union all减少连接次数，且方便后续优化 9 阅读全文

posted @ 2022-08-27 23:09 萧六弟阅读(17) 评论(0) 推荐(0) 编辑

AARRR:2.3

摘要：1.留存指标新用户的留存和所有用户留存不太一样方法一：python import pandas as pddf=pd.read_csv('user_behavior.csv')df=df[['user_id','timestamps']]df['timestamps']=pd.to_dateti 阅读全文

posted @ 2022-08-27 21:35 萧六弟阅读(39) 评论(0) 推荐(0) 编辑

AARRR:2.2

摘要：1.计算活跃指标每日pv,uv Page View（页面访问量）又叫做页面浏览量、点击量。通常是衡量一个网络新闻频道或网站甚至一条网络新闻的主要指标。用户每打开一个网站页面就被记录1次。用户多次打开同一页面，浏览量值累计。 Unique Visitor（独立访客）一般地，我们可以用两个数值标准阅读全文

posted @ 2022-08-26 17:13 萧六弟阅读(36) 评论(0) 推荐(0) 编辑

实习广场投递简历分析（二、三）

摘要：题目1: 在牛客实习广场有很多公司开放职位给同学们投递，同学投递完就会把简历信息存到数据库里。现在有简历信息表(resume_info)，部分信息简况如下: id job date num 1 C++ 2025-01-02 53 2 Python 2025-01-02 23 3 Java 2025 阅读全文

posted @ 2022-08-26 12:38 萧六弟阅读(42) 评论(0) 推荐(0) 编辑

AARRR：2.1

摘要：一点一点学：学习来源：https://zhuanlan.zhihu.com/p/285676746 数据来源：https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1 先从1亿数据中选择10万数据进行分析：数据清洗方法一阅读全文

posted @ 2022-08-25 20:52 萧六弟阅读(41) 评论(0) 推荐(0) 编辑

考试分数（5）

摘要：题目：牛客每次考试完，都会有一个成绩表(grade)，如下: id job score 1 C++ 11001 2 C++ 11000 3 C++ 9000 4 JAVA 12000 5 JAVA 13000 6 B 12000 7 B 11000 8 B 9999 第1行表示用户id为1的用户选阅读全文

posted @ 2022-08-25 11:03 萧六弟阅读(28) 评论(0) 推荐(0) 编辑

update

摘要：1.查询所有教师授课的学生上课平均人数超过全部课程平均人数的教师姓名表定义 1: teachers (教师表) 列名类型注释 id int unsigned 主键 name varchar 讲师姓名 email varchar 讲师邮箱 age int 讲师年龄 country varchar 阅读全文

posted @ 2022-08-24 20:31 萧六弟阅读(195) 评论(0) 推荐(0) 编辑

vloookup补充1

摘要：1.多列动态查找 2.多表混合查找 3.跨表查找 4.反向查找阅读全文

posted @ 2022-08-24 16:07 萧六弟阅读(7) 评论(0) 推荐(0) 编辑

考试分数（二、三）

摘要：1.牛客每次考试完，都会有一个成绩表(grade)，如下: id job score 1 C++ 11001 2 C++ 10000 3 C++ 9000 4 Java 12000 5 Java 13000 6 JS 12000 7 JS 11000 8 JS 9999 9 Java 12500 第阅读全文

posted @ 2022-08-24 11:56 萧六弟阅读(80) 评论(0) 推荐(0) 编辑

找规律

摘要：题目一： 4 2 12 28 80 （）正确答案: C 你的答案: 空 (错误) 124 96 216 348 解析解析：12＝（4＋2）×2，28＝（2＋12）×2，80＝（12＋28）×2，（216）＝(28＋80)×2 题目二： 1/2，1，1，（），9/11，11/13 正确答案: 阅读全文

posted @ 2022-08-23 20:09 萧六弟阅读(232) 评论(0) 推荐(0) 编辑

未完成试卷数大于1的有效用户

摘要：现有试卷作答记录表exam_record（uid用户ID, exam_id试卷ID, start_time开始作答时间, submit_time交卷时间, score得分），示例数据如下： id uid exam_id start_time submit_time score 1 1001 9001 阅读全文

posted @ 2022-08-23 16:08 萧六弟阅读(42) 评论(0) 推荐(0) 编辑

AARRR模型学习（一）

摘要：1.Acquisition：获取用户：运营一款产品的第一步就是获取用户即推广首先要分析自己产品的特性以及目标人群，摸清楚每个渠道量级与用户质量。渠道量级指标：曝光量、点击、下载、安装、激活（注册激活，主动激活、推送激活、交易激活）、累计新增。渠道质量指标：CTR，激活率，安装率，CPA等每用户阅读全文

posted @ 2022-08-21 21:49 萧六弟阅读(235) 评论(0) 推荐(0) 编辑

实习：6

摘要：1.多个sheet表同时操作（1）选中下方任意一个工作表，右键，全部工作表：然后可以操作任意一个工作表，其余也会跟着变动（2）若要取消某些选中，按住ctrl，左击即可 2.if 单条件判断 =IF(AC3>0,"增加","减少")，也可以用来分类多条件判断，and连接 =IF(AND(O3<> 阅读全文

posted @ 2022-08-18 22:05 萧六弟阅读(28) 评论(0) 推荐(0) 编辑

实习：5

摘要：vlookup函数的使用 1.名称的比对,关键是从业务场景抽象出筛选查找原理： 2.替换 3.多条件筛选&符号，构建辅助列合并条件 4.分组计数，汇总（1）数据透视表（2）=COUNTIF(L:L,M2)，第一个参数是区域，第二个参数为条件。阅读全文

posted @ 2022-08-16 21:29 萧六弟阅读(19) 评论(0) 推荐(0) 编辑

实习：4.2

摘要：针对简单情况1的问题：源数据创建一个辅助列：再对A系统中更改vlookup第一个参数，保证搜索的唯一性，源数据修改为整张表范围，后面就不用修改了。如果说系统的位置发生了变化，比如C系统：需要修改vlookup的第1个参数和match的第1个参数总结：（1）系统位置相同，可以直接复制公式，阅读全文

posted @ 2022-08-14 22:42 萧六弟阅读(11) 评论(0) 推荐(0) 编辑

实习：4.1

摘要：模拟需求：这是源数据：包含所有系统和所有的指标，在一张excel表里系统地区指标4 指标2 指标5 指标1 指标3 A 苏州 11 3 7 10 13 A 杭州 4 5 3 13 3 A 广州 10 10 14 7 14 A 深圳 11 3 13 7 5 A 南京 10 7 13 15 8 阅读全文

posted @ 2022-08-14 21:38 萧六弟阅读(17) 评论(0) 推荐(0) 编辑

实习-3

摘要：需求：excel批量创建多个sheet表，并且指定命名首先在excel中sheet1表中把要命名的表名字写好：问题：不合规范原因是新建表为自动默认创建3个sheet表，sheet1名称列中包含了标题,并且代码不能重复执行，会覆盖以前的表名，所以修改如下：大功告成！参考： https://z 阅读全文

posted @ 2022-08-14 10:42 萧六弟阅读(17) 评论(0) 推荐(0) 编辑

实习2补充

摘要：需求：把第2列数据按照第1列的顺序进行排列，以便于筛选 1.excel自定义排序因为不是对数值进行排序，因此没有升序和降序的说法。需要在左上角文件-->选项-->自定义序列-->录入或者从单元格中导入序列然后选择需要处理的数据-->点击排序,主要关键字就是地区 2.python 排序或者通过阅读全文

posted @ 2022-08-13 23:18 萧六弟阅读(25) 评论(0) 推荐(0) 编辑

实习2

摘要：需求：将同一个身份证出现不同地市的提取出来，其余的提取出来。例如：广州 id1;广州 id2；深圳 id1;广州 id2;惠州 id3;就是把id1对应的两条数据取出来，其余的取出来。数据共有16673条，字段如下：解决一：mysql提取数据经过尝试加深了对mysql的理解：group b 阅读全文

posted @ 2022-08-13 17:30 萧六弟阅读(41) 评论(0) 推荐(0) 编辑

练习（1）

摘要：题目1：好评率是用户对产品评价的重要指标。现在需要统计2019年3月1日到2019年3月31日，用户'小张'提交的"母婴"类目"DW"品牌的好评率（好评率=“好评”评价量/总评价量），请写出SQL/Python/其他语言查询语句:用户评价详情表：a字段：id（评价id，主键），create_tim 阅读全文

posted @ 2022-08-06 17:53 萧六弟阅读(36) 评论(0) 推荐(0) 编辑

近七日日均订单

摘要：题目：现有用户打车记录表tb_get_car_record id uid city event_time end_time order_id 1 101 北京 2021-09-25 08:28:10 2021-09-25 08:30:00 9011 2 102 北京 2021-09-25 09:00 阅读全文

posted @ 2022-08-05 21:26 萧六弟阅读(170) 评论(0) 推荐(0) 编辑

常用函数

摘要：1.数学函数 SELECT id,is_blacklist,round(is_blacklist,1) as a, ceil(is_blacklist) as b, floor(is_blacklist) as cfrom user 2.字符串函数 select first_name as '名字' 阅读全文

posted @ 2022-08-05 18:14 萧六弟阅读(50) 评论(0) 推荐(0) 编辑

技巧（1）

摘要：1.连续数字填充 2.单元格内换行 ALT+enter 单元格内换行 3.快捷求和求和快捷键「ALT + =」能够用最快的速度，一次得到所有数据的和 4.快速选择（1）点击已编辑的单元格，注意非空白（2）ctrl + A （1）点击起点（2）按住shift（3）点击终点 5.问答 1、excel 阅读全文

posted @ 2022-08-05 15:23 萧六弟阅读(427) 评论(0) 推荐(0) 编辑

均值的计算（1）

摘要：Mysql插入中文数据报错，修改对应utf8编码：https://www.cnblogs.com/Amine/p/15463871.html 1.题目：运营想要了解每个学校答过题的用户平均答题数量情况，请你取出数据。示例：用户信息表 user_profile，其中device_id指终端编号（认为阅读全文

posted @ 2022-08-05 11:29 萧六弟阅读(129) 评论(0) 推荐(0) 编辑

创建删除数据库

摘要：Hive创建删除数据库和Mysql存在许多相似之处，也有一些不同之处创建数据库 Create database lagou 查看数据库 Show databases 删除数据库（1）删除空数据库 Drop datebase 数据库名 drop database 学生（2）如果删除的数据库不存在阅读全文

posted @ 2022-08-04 21:07 萧六弟阅读(44) 评论(0) 推荐(0) 编辑

几个简单函数

摘要：sum函数作用：求和公式： =sum(单元格区域/多个固定数值) 作用：计算选中区域数字个数 count函数公式： =count(单元格区域/多个固定数值) 作用：对数值进行四舍五入公式： =round(num需要四舍五入的单元格/数值,num_digits需要取几位) round函数当n 阅读全文

posted @ 2022-08-04 16:17 萧六弟阅读(896) 评论(0) 推荐(0) 编辑

自连接-->排序问题

摘要：题目一：按成绩排名 create Table `scores` ( `id` int(2) not null, `score` decimal(6,2) not null ); insert into scores(id,score) values (1,3.50),(2,3.65),(3,4.00 阅读全文

posted @ 2022-08-04 13:03 萧六弟阅读(46) 评论(0) 推荐(0) 编辑

xx率计算(1)

摘要：1.现在有一个需求，让你统计正常用户发送给正常用户邮件失败的概率: 有一个邮件(email)表，id为主键， type是枚举类型，枚举成员为(completed，no_completed)，completed代表邮件发送是成功的，no_completed代表邮件是发送失败的。简况如下: 第1行表示为阅读全文

posted @ 2022-08-03 18:59 萧六弟阅读(102) 评论(0) 推荐(0) 编辑

vlookup(2)

摘要：1、屏蔽错误值（IFERROR）错误则返回空字符串 2、关键字词查找（通配符 *） 3、去除空格查找（SUBSTITUTE） 4.多列动态查找（match）注意vlookup向下拖拽，列定行不定，match是向右拖拽，行定列不定阅读全文

posted @ 2022-08-02 12:05 萧六弟阅读(25) 评论(0) 推荐(0) 编辑

sql多表连接学习（1）

摘要：1.现有电影信息表film，包含以下字段：字段说明 film_id 电影id title 电影名称 description 电影描述信息有类别表category，包含以下字段：字段说明 category_id 电影分类id name 电影分类名称 last_update 电影分类最后更新时阅读全文

posted @ 2022-08-01 19:33 萧六弟阅读(151) 评论(0) 推荐(0) 编辑

vlookup基础(1)

摘要：1、精确匹配（精确查找） G4为返回列数，C3-E8为查找区域，3为区域第3列，0表示精确查找或者跨sheet表进行查询，第2个参数变成对应sheet表中数据即可 https://xinzhi.wenda.so.com/a/1521709101617752 2、近似匹配（区间查找） 3、多条件查找阅读全文

posted @ 2022-08-01 19:19 萧六弟阅读(102) 评论(0) 推荐(0) 编辑

datedif函数

摘要：函数语法： DATEDIF(start_date,end_date,unit) 参数1：start_date，表示起始日期参数2：end_date，表示结束日期参数1和参数2可以是带引号的文本串（例如："2014-1-1"）、系列号或者其他公式或函数的结果参数3：unit为所需信息的返回时间单阅读全文

posted @ 2022-08-01 18:03 萧六弟阅读(426) 评论(0) 推荐(0) 编辑

学习5：58二手房

摘要：1.几个概念'''聚焦爬虫：爬取页面中的页面内容 --编码流程： -指定url -发起请求 -获取相应数据 -数据解析 -持久化存储数据解析分类： --正则 --bs4 --xpath(重点)数据解析原理概述： --解析的局部文本内容都会在标签之间或者标签对应的属性中进行存储 --1.进行指定标签的阅读全文

posted @ 2022-08-01 12:49 萧六弟阅读(24) 评论(0) 推荐(0) 编辑

戴小帅的学习笔记

08 2022 档案

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜