摘要:
本文讲解一种比较全能的『机器学习模型可解释性』方法——SHAP。通过调用Python的SHAP工具库,对机器学习模型做可解释性分析,判断不同特征对于当前模型的重要程度。 阅读全文
摘要:
数据集中的异常值,对于数据分布、建模等都有影响。本文讲解两大类异常值的检测方法及其Python实现:可视化方法(箱线图&直方图)、统计方法(z分数&四分位距)。 阅读全文
摘要:
本文讲解使用Panel、hvPlot等工具库,简单快速地制作可交互的数据仪表板,对180万起野火数据进行空间可视化,更直观地对起火原因、火势大小、持续时长进行单维或多维分析。 阅读全文
摘要:
客户分群(客户细分)对于绘制用户画像、构建个性化推广、产品和服务策略,都非常重要。本文讲解此过程中,多种机器学习聚类算法的建模流程与评估模式。 阅读全文
摘要:
本文以保险金额预估为例,讲解机器学习从开发到云端服务部署的全流程:基于PyCaret开发机器学习全流程、基于Flask搭建简易前端Web应用程序、在Heroku云上部署机器学习应用。 阅读全文
摘要:
借助AI进行邮件正文与附件内容的识别,可以极大提高工作效率。本文讲解如何设计一个AI系统,完成邮件内容意图检测:架构初揽、邮件正文&附件的理解与处理、搭建多数据源混合网络、训练&评估。 阅读全文
摘要:
数据随着时间变化,会导致已有模型的准确度大打折扣,这就是数据漂移问题。本文讲解数据漂移问题的诸多实际案例、检测方法、基于evidently库的代码实现。 阅读全文
摘要:
如何预测客户价值,计算特定时间段内能带来的价值,是互联网公司在面临海量用户时急需解决的运营命题。本文就来讲解『机器学习+RFM模型』的精细化运营解决方案。 阅读全文
摘要:
『人工智能+新药研发』已经成为国内外医药企业的发展新模式!本文讲解 AI 在新药研发领域的诸多应用方向与 MolSearch 工具库的应用实践——药物晶型预测、靶点选择、患者招募、虚拟药物筛选、AI新药研发辅助系统。 阅读全文
摘要:
特征工程一般是手动完成,不仅依赖于工程师的丰富经验,也非常耗时。因此『自动化特征工程』可以自动生成大量候选特征,帮助数据科学家显著提升了工作效率和模型效果。 阅读全文