08 2022 档案
摘要:
本文将基于保险欺诈场景案例讲解如何进行有效的图挖掘,并将挖掘到的信息提供给AI模型,辅助精准检测和识别商业保险欺诈。
阅读全文

摘要:
本文讲解音频检索技术及其广泛的应用场景。以『听曲识歌』为例,技术流程为具对已知歌曲抽取特征并构建特征向量库,而对于待检索的歌曲音频,同样做特征抽取后进行比对和快速匹配。
阅读全文

摘要:
本文使用tf-idf(词频-逆文件频率)、lsi(潜在语义索引)和 doc2vec(文档向量化嵌入)这3种最基础的NLP文档嵌入技术,对文本进行嵌入操作(即构建语义向量)并完成比对检索,构建一个基础版的文本搜索引擎。
阅读全文

摘要:
真实面试题分享!本文基于餐饮业数据,使用SQL分析挖掘客户的就餐模式、点餐花费和菜品喜好等,以提升餐厅的业务经营水平。
阅读全文

摘要:
气候是全球性的话题,本文基于owid co2数据集,分析了世界各地的二氧化碳排放量,并将二氧化碳排放的主要国家以及二氧化碳排放来源进行了可视化。
阅读全文

摘要:
SQL与Pandas都可以完成大部分数据分析需求。本文用SQL与Pands逐一实现10类核心数据分析需求,轻松进行对比学习:数据选择、限制、统计计数、排序、新字段生成、数据选择、数据分组、统计均值、方差、极差/范围。
阅读全文

摘要:
本文介绍AI模型适用于小型本地设备上的方法技术:压缩模型参数量,设计更小的模型结构,知识蒸馏,调整数据格式,数据复用等,并介绍移动小处理设备的类型、适用移动设备的模型框架等。
阅读全文

摘要:
音乐领域,借助于歌曲相关信息,模型可以根据歌曲的音频和歌词特征,将歌曲精准进行流派分类。本文讲解如何基于机器学习完成对音乐的识别分类。
阅读全文

摘要:
朋友刚刚拿到了 Google 数据分析师的 Offer!跟她详聊了面试的3道SQL题目,把思路和参考答案一并奉上!各位近期在面试的朋友,可以拿来自测一下~【代码与数据集亲测可运行】
阅读全文

摘要:
为了让计算机理解、处理和表征非结构化数据,我们通常将其转换为密集向量,而海量向量数据的存储、管理和查询并不简单。本文介绍 Milvus 这个开源向量数据库管理平台的优势、架构和使用案例,了解其在简化『机器学习操作(MLOps)』流程中的应用
阅读全文

摘要:
如何在海量用户中精准预测哪些客户即将流失?本文结合音乐流媒体平台 Sparkify 数据,详细讲解一个客户流失建模预测案例的全流程:探索性数据分析 EDA、数据处理、进一步数据探索、建模优化、结果评估。【代码与数据集亲测可运行】
阅读全文

摘要:
运动穿戴设备(比如小米手环、华为手表、fitbit、Apple Watch)中记录了大量的运动数据,也记录着佩戴者的身体状况。本文结合 Kaggle fitbit 数据集,分析运动规律和卡路里的消耗情况。【代码与数据集亲测可运行】
阅读全文

摘要:
单行代码(one-liner)是一种编程技巧,指将大段代码写成非常简短的形式,更加紧凑,也更加高级!本文总结了 Python 中常用的 9 个 one-linear 技巧:单行 if-else 语句、列表推导式、字典推导式、合并词典、删除列表重复元素、单行多变量赋值、列表元素筛选、字典排序(按key/按value)。
阅读全文

摘要:
Pandas 是数据科学领域最受欢迎的 Python 工具库之一,函数与功能极其丰富。本文将数据科学家常用的二三十个功能函数总结为10类,熟练掌握就能轻松解决80%以上的数据处理问题!
阅读全文

摘要:
U-Net是一种卷积网络架构,用于快速、精确地分割生物医学图像。本文讲解使用 U-Net 进行肺部影像分割的案例全过程:工具库&环境准备、数据读取、数据切分、TensorFlow IO准备、U-Net 网络构建、评估准则&损失函数、超参数设置&模型编译、回调函数&模型训练、模型加载&新数据预估。【代码与数据集亲测可运行】
阅读全文

摘要:
二手车交易越发繁荣的当下,如何科学定价时买卖&平台三方都关心的问题。本文结合汽车价格预测数据集,讲解『二手车价格预估模型』构建和部署的全过程:数据分析处理 & 特征工程、机器学习建模、Web应用开发等。【代码与数据集亲测可运行】
阅读全文

摘要:
本文结合 6000 颗钻石的数据,通过克拉重量、切工、颜色和其他特征等属性来预测钻石价格。这是一个完整的企业级建模案例,包含从探索性数据分析、数据准备、模型选择/训练/调优、模型保存和部署的全流程。案例用到的 PyCaret 和 FastAPI 是非常高效的工具,推荐!【代码与数据集亲测可运行】
阅读全文

摘要:
机器学习建模过程如何提速?本文提供 Intel 针对 Scikit-Learn 工具库做的加速补丁,是一种硬件层面的解决方案,支持多种算法,并可以将建模时间压缩为常规方式的 1/5
阅读全文

摘要:
Mito 和 Bamboolib 是 Python 库,可以快速流畅地处理大文件表格,功能性与易用性与 Excel 不相上下,但是可以避免出现 Excel 中的卡顿和崩溃。二者的安装和调用都非常简单,绝对值得一试~【代码与数据集亲测可运行】
阅读全文

摘要:
通过 Styler API 的设置,Pandas 也能像 Excel 那样进行『条件选择』和 『文本框颜色』设置,一眼获取最关键信息!本文讲解 Pandas 使用单色(或渐变色)高亮显示缺失值、最大值、最小值、范围值等【数据与代码亲测可运行】
阅读全文

摘要:
AI识万物:从0搭建和部署手语识别系统,检测手语并将翻译!搭建和部署完成后,你可以通过摄像头,轻松测试模型啦~
阅读全文

摘要:
太难了!xdm!哄女朋友太难了!本文手把手带大家构建一个处理和分类语音检测情绪的系统,完成求生欲max的「语音情感识别任务」
阅读全文

摘要:
一学就会!小白的终极神经网络搭建实战教程!环境设置、神经网络拆解、深度神经网络、模型搭建、神经网络结构可视化、训练和测试评估、模型可解释性!
阅读全文

摘要:
全自动化机器学习建模!效果吊打初级炼丹师!本文汇总了常见开源库,PyCaret、H2O AutoML、TPOT、Auto-sklearn、FLAML、EvalML、AutoKeras、Auto-ViML、AutoGluon、MLBox,一起用起来吧!
阅读全文

摘要:
机器学习建模高级用法!构建企业级AI建模流水线,不同环节有序地构建成工作流(pipeline)。本文以『客户流失』为例,讲解如何构建 SKLearn 流水线。
阅读全文

摘要:
股市预测,销量预测,病毒传播...使用 Merlion 时间序列建模搞定全部!本文详解全部流程:加载和转换数据、建立和训练模型、模型结果后处理、评估模型性能。
阅读全文

摘要:
2022了你还不知道“低代码”?一起看看数据分析、机器学习、深度学习领域最受欢迎的 Python 低代码工具:D-Tale、AutoViz、Lux、Pandas-Profiling、PyCaret、PyTorch Lightning、Hugging Face Transformers。
阅读全文
