随笔分类 - 数据分析 ⛵ 面试宝典&实战项目
数据分析是AI从业者的基本功!ShowMeAI在这里分享基础&最新的工具库教程,也展示趣味/时事数据分析的完整代码流程,还有面试场景下的SQL必学要点!有趣又有料!@ShowMeAI研究中心
摘要:
客户分群(客户细分)对于绘制用户画像、构建个性化推广、产品和服务策略,都非常重要。本文讲解此过程中,多种机器学习聚类算法的建模流程与评估模式。
阅读全文

摘要:
数据随着时间变化,会导致已有模型的准确度大打折扣,这就是数据漂移问题。本文讲解数据漂移问题的诸多实际案例、检测方法、基于evidently库的代码实现。
阅读全文

摘要:
客户分群对于精准营销的意义重大,而机器学习可以优化这一过程。本文会详细拆解实现过程:数据收集、创建RFM表、探索数据&数据变换、应用聚类做用户分群、解释结果。
阅读全文

摘要:
本文讲解如何使用Python的schedule库完成自动化调度程序,通过代『发送邮件』这一代码实例展示了构建任务与任务调度的全过程。
阅读全文

摘要:
Altair是Python统计可视化库,提供了强大而简洁的可视化语法,可以产出漂亮的数据分析可视化结果,并支持交互式操作和勾选局部数据深入分析。本文以实例讲解Altair的数据分析过程,以及交互文档报告的生成。...
阅读全文

摘要:
本文基于Airbnb在大曼彻斯特地区的房源数据,构建机器学习模型,进行数据分析与挖掘建模,预测民宿房源的价格走势。当然,同样的方法模式也可以应用在国内平台。
阅读全文

摘要:
本文通过数据科学和AI的方法,分析挖掘人力资源流失问题,构建基于机器学习的解决方案,并通过对AI模型的反向解释,深入理解导致人员流失的主要因素。
阅读全文

摘要:
真实面试题分享!本文基于餐饮业数据,使用SQL分析挖掘客户的就餐模式、点餐花费和菜品喜好等,以提升餐厅的业务经营水平。
阅读全文

摘要:
气候是全球性的话题,本文基于owid co2数据集,分析了世界各地的二氧化碳排放量,并将二氧化碳排放的主要国家以及二氧化碳排放来源进行了可视化。
阅读全文

摘要:
SQL与Pandas都可以完成大部分数据分析需求。本文用SQL与Pands逐一实现10类核心数据分析需求,轻松进行对比学习:数据选择、限制、统计计数、排序、新字段生成、数据选择、数据分组、统计均值、方差、极差/范围。
阅读全文

摘要:
音乐领域,借助于歌曲相关信息,模型可以根据歌曲的音频和歌词特征,将歌曲精准进行流派分类。本文讲解如何基于机器学习完成对音乐的识别分类。
阅读全文

摘要:
朋友刚刚拿到了 Google 数据分析师的 Offer!跟她详聊了面试的3道SQL题目,把思路和参考答案一并奉上!各位近期在面试的朋友,可以拿来自测一下~【代码与数据集亲测可运行】
阅读全文

摘要:
运动穿戴设备(比如小米手环、华为手表、fitbit、Apple Watch)中记录了大量的运动数据,也记录着佩戴者的身体状况。本文结合 Kaggle fitbit 数据集,分析运动规律和卡路里的消耗情况。【代码与数据集亲测可运行】
阅读全文

摘要:
单行代码(one-liner)是一种编程技巧,指将大段代码写成非常简短的形式,更加紧凑,也更加高级!本文总结了 Python 中常用的 9 个 one-linear 技巧:单行 if-else 语句、列表推导式、字典推导式、合并词典、删除列表重复元素、单行多变量赋值、列表元素筛选、字典排序(按key/按value)。
阅读全文

摘要:
Pandas 是数据科学领域最受欢迎的 Python 工具库之一,函数与功能极其丰富。本文将数据科学家常用的二三十个功能函数总结为10类,熟练掌握就能轻松解决80%以上的数据处理问题!
阅读全文

摘要:
二手车交易越发繁荣的当下,如何科学定价时买卖&平台三方都关心的问题。本文结合汽车价格预测数据集,讲解『二手车价格预估模型』构建和部署的全过程:数据分析处理 & 特征工程、机器学习建模、Web应用开发等。【代码与数据集亲测可运行】
阅读全文

摘要:
本文结合 6000 颗钻石的数据,通过克拉重量、切工、颜色和其他特征等属性来预测钻石价格。这是一个完整的企业级建模案例,包含从探索性数据分析、数据准备、模型选择/训练/调优、模型保存和部署的全流程。案例用到的 PyCaret 和 FastAPI 是非常高效的工具,推荐!【代码与数据集亲测可运行】
阅读全文

摘要:
Mito 和 Bamboolib 是 Python 库,可以快速流畅地处理大文件表格,功能性与易用性与 Excel 不相上下,但是可以避免出现 Excel 中的卡顿和崩溃。二者的安装和调用都非常简单,绝对值得一试~【代码与数据集亲测可运行】
阅读全文

摘要:
通过 Styler API 的设置,Pandas 也能像 Excel 那样进行『条件选择』和 『文本框颜色』设置,一眼获取最关键信息!本文讲解 Pandas 使用单色(或渐变色)高亮显示缺失值、最大值、最小值、范围值等【数据与代码亲测可运行】
阅读全文

摘要:
2022了你还不知道“低代码”?一起看看数据分析、机器学习、深度学习领域最受欢迎的 Python 低代码工具:D-Tale、AutoViz、Lux、Pandas-Profiling、PyCaret、PyTorch Lightning、Hugging Face Transformers。
阅读全文
