最后一年的顶级数据科学项目和源代码
最后一年的顶级数据科学项目和源代码
Top Data Science Projects for Final year with source code
数据科学家需要成为所有行业的杰克,但要精通某些行业。除非您为 Google 或 Facebook 等科技巨头工作,否则您不会只在使用数据工程师提取的数据对数据进行建模。通常,许多公司缺乏数据科学团队的资源,因此要为业务带来最大利益,您必须在完整的端到端数据科学产品开发生命周期中工作。从事端到端解决的数据科学项目可以让你战胜这种情况。
IBM 预测到 2020 年底将有 700,000 个数据科学职位空缺,数据科学是——而且将永远是——最热门的职业选择,随着市场的扩大,对数据专家的需求将逐渐增长。填补开放数据科学职位平均需要 60 天,填补高级数据科学家职位平均需要 70 天。
我们做朋友吧!跟着我 推特 和 Facebook 并在 LinkedIn 上与我联系。你可以访问我的 网站 也 。别忘了在这里关注我 中等的 以及更多技术爱好者的内容。
最后一年的顶级数据科学项目
-
使用 NLTK 在 Python 中从头开始构建聊天机器人
-
电信客户流失预测
-
使用 Apriori 进行市场篮子分析
-
使用 NLP -Spacy 构建简历解析器
-
模型保险索赔严重性
6)产品评论的情绪分析
-
贷款违约预测
-
使用 TensorFlow 构建图像分类器
-
PUBG 完成位置预测
-
使用机器学习的价格推荐
-
欺诈检测作为分类问题
-
销售预测
-
构建推荐系统
-
员工访问挑战作为分类问题
-
使用机器学习进行生存预测
1) 使用 Python 构建聊天机器人
您还记得上次您在电话中或通过聊天与亚马逊、Flipkart 或沃尔玛交付给您的不正确商品交谈的客户服务助理吗?您很可能会与聊天机器人而不是客户服务代理进行对话。 Gartner 估计,到 2022 年,85% 的客户互动将由聊天机器人处理。那么究竟什么是聊天机器人?如何使用 Python 构建智能聊天机器人?
什么是聊天机器人?
聊天机器人是一种基于人工智能的数字助理,它可以理解人类的能力并以自然语言模拟人类对话,从而像真人一样迅速回答他们的问题。聊天机器人通过自动化客户请求来帮助企业提高运营效率。
聊天机器人如何工作?
聊天机器人最重要的任务是分析和理解客户请求提取相关实体的意图。然后,机器人根据分析向用户提供适当的响应。自然语言处理通过聊天机器人在文本分析中发挥着至关重要的作用,使计算机与人类之间的交互感觉就像真正的人类对话。每个聊天机器人都采用以下三种分类方法工作-
模式匹配——利用模式匹配对文本进行分组并产生响应
自然语言理解 (NLU) — 将文本信息转换为机器可以理解的结构化数据格式的过程。
自然语言生成 (NLG) — 将结构化数据转换为文本的过程。
如何构建自己的聊天机器人?
在这个数据科学项目中,您将使用领先且功能强大的 Python 库 NLTK(自然语言工具包)来处理文本数据。导入所需的数据科学库并加载数据。使用各种预处理技术,如 Tokenization 和 Lemmatization 来预处理文本数据。创建训练和测试数据。创建一组简单的规则来训练聊天机器人。
2) 使用逻辑回归的电信行业客户流失预测
根据 EuropeanBusinessReview 的数据,电信提供商每月因客户流失而损失近 6500 万美元。那不是很贵吗?随着众多新兴电信巨头的出现,电信行业的竞争日益激烈,客户中断服务的可能性很高。这通常被称为电信中的客户流失。专注于优质服务、低成本订阅计划以及内容和功能的可用性,同时创造积极的客户服务体验的电信提供商有很高的客户保留机会。好消息是,所有这些因素都可以通过关于计费历史、订阅计划、内容成本、网络/带宽利用率等不同层次的数据来衡量,以获得 360 度的客户视图。这种客户数据的 360 度视图可用于预测分析,以识别影响客户满意度并帮助减少电信客户流失的模式和各种趋势。
考虑到电信行业的客户流失成本高昂且不可避免,利用分析来了解影响客户流失的因素、识别最有可能流失的客户并为他们提供折扣可能是减少流失的好方法。在这个数据科学项目中,您将构建一个逻辑回归机器学习模型,以了解数据集中不同变量与客户流失之间的相关性。
3) 使用 Apriori 算法在 Python 中进行市场篮子分析
每当您访问零售超市时,您会发现婴儿尿布和湿巾、面包和黄油、比萨饼底和奶酪、啤酒和薯条都放在一起出售。这就是购物篮分析的全部内容——分析客户一起购买的产品之间的关联。购物篮分析是零售行业中的一个多功能用例,可帮助在实体店交叉销售产品,并帮助电子商务企业根据产品关联向客户推荐产品。 Apriori 和 FP 增长是用于关联学习以执行购物篮分析的最流行的机器学习算法。
4) 使用 NLP(Spacy) 和机器学习构建简历解析器
简历解析器或简历解析器是根据职位描述分析和提取简历/简历数据并返回适合计算机存储、操作和报告的机器可读输出的程序。简历解析器将每个简历的提取信息存储在一个唯一条目中,从而帮助招聘人员获得相关候选人的列表,以进行特定的关键字和短语(技能)搜索。简历解析器帮助招聘人员为工作设置特定标准,不符合设置标准的候选人简历会被自动过滤掉。
在这个数据科学项目中,您将构建一个 NLP 算法来解析简历并查找职位描述中提到的单词(技能)。您将使用 NLP 库 Spacy 的 Phrase Matcher 功能对简历文档进行“单词/短语”匹配。然后,简历解析器会计算每份简历在不同类别下出现的单词(技能),以帮助招聘人员筛选理想的工作候选人。
5) 建模保险索赔严重性
提出保险索赔并与保险经纪人或代理人处理所有文书工作是没有人愿意浪费时间和精力的事情。为了让保险理赔流程无忧无虑,全球的保险公司都在利用数据科学和机器学习来简化理赔服务流程。这个初学者级别的数据科学项目是关于保险公司如何通过预测机器学习模型来增强客户服务并使理赔服务流程更加顺畅和快捷。
每当有人提出保险索赔时,保险代理人都会彻底审查所有文书工作,然后决定要批准的索赔金额。预测索赔成本和严重程度的整个文书工作过程非常耗时。在此项目中,您将构建一个机器学习模型,以根据输入数据预测索赔严重程度。
该项目将使用由 116 个分类变量和 14 个连续特征组成的 Allstate Claims 数据集,其中包含超过 300,000 行屏蔽和匿名数据,其中每行代表一个保险索赔。
6) Pairwise Reviews Ranking-产品评论情感分析
用户的产品评论是企业做出战略决策的关键,因为它们可以深入了解用户真正想要什么以获得更好的体验。今天,几乎所有的企业在他们的网站上都有评论和评级部分,以了解用户的体验是积极的、消极的还是中立的。由于对产品的令人费解的评论和反馈过多,因此无法手动阅读每条评论。不仅如此,大多数情况下,反馈中还有许多难以解读的速记词和拼写错误。这就是情绪分析的用武之地。
7) 使用 Gradient Booster 的贷款违约预测项目
贷款是银行的核心收入来源,因为银行利润的主要部分直接来自这些贷款的利息。但是,贷款审批流程非常密集,需要基于多种因素进行大量验证和验证。即使经过如此多的验证,银行仍然不确定一个人是否能够毫无困难地偿还贷款。如今,几乎所有银行都使用机器学习来根据信用评分、婚姻和工作状况、性别、现有贷款、家属总数、收入和费用等各种因素实时自动化贷款资格流程。
8)使用TensorFlow(图像分类器)进行植物识别
图像分类是深度学习的一个奇妙应用,其目标是将图像的所有像素分类到一个定义的类别中。使用深度学习进行
9) PUBG FINISH 位置预测
拥有数百万活跃玩家和超过 5000 万份销量的《绝地求生》在全球享有盛誉,是有史以来最畅销的五款游戏之一。 PUBG 是一种游戏,其中 n 不同数量的人使用 n 种不同的策略进行游戏,并且预测完成位置绝对是一项具有挑战性的任务。
在这个数据科学项目中,您将基本上开发一个获胜公式,即建立一个模型来预测玩家在没有玩家玩游戏的情况下的最终排名。
10) 在线卖家价格推荐
今天的电子商务平台受到机器学习算法的广泛驱动,从质量检查和库存管理到销售人口统计和产品推荐,都使用机器学习。电子商务应用程序和网站试图解决的一个更有趣的商业用例是消除人为干扰向其市场上的卖家提供价格建议,以提高购物网站或应用程序的效率。这就是使用机器学习进行价格推荐的时候。
11) 信用卡欺诈检测作为分类问题
对于数据科学家来说,这是一个有趣的数据科学问题,他们希望通过解决分类问题来摆脱自己的舒适区,因为目标群体的规模存在很大的不平衡。信用卡欺诈检测通常被视为一个分类问题,其目的是将在特定信用卡上进行的交易分类为欺诈性或合法性。没有足够的信用卡交易数据集可供实践,因为出于隐私考虑,银行不想透露其客户数据。
问题陈述
该数据科学项目旨在帮助数据科学家开发一种智能信用卡欺诈检测模型,用于从高度不平衡和匿名的信用卡交易数据集中识别欺诈性信用卡交易。为了解决这个与数据科学相关的项目,流行的 Kaggle 数据集包含了欧洲持卡人在 2013 年 9 月进行的信用卡交易。该信用卡交易数据集包含 284,807 笔交易,其中 492 笔 (0.172%) 交易是欺诈性的。作为正类,它是一个高度不平衡的数据集,即欺诈数量仅占数据集中所有信用卡交易的 0.172%。数据集中有 28 个匿名特征是通过使用主成分分析的特征归一化得到的。数据集中还有两个未匿名化的附加特征——交易时间和美元金额。这将有助于检测欺诈的总体成本。
12)沃尔玛商店的销售预测
电子商务和零售业使用大数据和数据科学来优化业务流程并做出有利可图的决策。使用数据科学技术可以优雅地管理各种任务,例如预测销售、向客户提供产品推荐、库存管理等。沃尔玛使用数据科学技术对其 11,500 家 2016 年创收 4,821.3 亿美元进行了精确预测。从这个数据科学项目的名称中可以清楚地看出,您将处理包含 143 周交易记录的沃尔玛商店数据集45 家沃尔玛商店及其 99 个部门的销售额。
问题陈述
这是一个有趣的数据科学问题,涉及预测沃尔玛不同门店内各个部门的未来销售额。这个数据科学项目的挑战在于预测 4 个主要节日的销售额——劳动节、圣诞节、感恩节和超级碗。选定的假日降价活动是沃尔玛销售额最高的活动,通过预测这些活动的销售额,他们希望确保有足够的产品供应来满足需求。该数据集包含各种详细信息,例如降价折扣、消费者价格指数、一周是否是假期、温度、商店规模、商店类型和失业率。
使用沃尔玛数据集的数据科学项目的目标
使用沃尔玛历史数据集预测各个部门的沃尔玛商店销售额。
预测哪些部门受到假期降价事件的影响以及影响程度。
13)构建推荐系统——Expedia酒店推荐
每个人都希望他们的产品个性化,并按照他们希望的方式行事。推荐系统旨在为特定用户对产品的偏好建模。该数据科学项目旨在通过根据用户的偏好向用户推荐酒店来研究 Expedia 在线酒店预订系统。 Expedia 数据集作为 Kaggle 上的一项数据科学挑战提供,用于对客户数据进行情境化,并预测客户可能留在 100 个不同酒店集团的概率。
问题陈述
Expedia 数据集由训练集中的 37,670,293 个条目和测试集中的 2,528,243 个条目组成。 Expedia Hotel Recommendations 数据集以 2013 年至 2014 年的数据作为训练集,以 2015 年的数据作为测试集。该数据集包含有关入住和退房日期、用户位置、目的地详细信息、起点-终点距离以及实际预订的详细信息。此外,它还从旅行者提供的酒店评论中提取了 149 个潜在特征,这些特征依赖于酒店服务,如靠近旅游景点、清洁度、洗衣服务等。测试集中存在的所有用户 ID 都存在于训练集。
14) 亚马逊-员工访问数据科学挑战
员工在公司的职业生涯中可能需要申请各种资源。对于谷歌和亚马逊等许多大公司来说,确定员工的各种资源访问权限是一个流行的现实世界数据科学挑战。对于像亚马逊这样的公司,由于其员工和资源情况非常复杂,早些时候这是由各种人力资源管理员完成的。亚马逊对自动化向其员工提供访问各种计算机资源的过程很感兴趣,以节省金钱和时间。
问题陈述
Amazon-Employee Access Data Science Challenge 数据集由 Amazon Inc 的人力资源管理员记录的 2010 -2011 年的历史数据组成。训练集由 32769 个样本组成,测试集由 58922 个样本组成。每个数据集样本都有 8 个特征,表示亚马逊员工的不同角色或群体。
源代码
15) 预测泰坦尼克号乘客的生还——你会在泰坦尼克号上幸存下来吗?
这是数据科学初学者在全球社区中与数据科学相关的热门项目之一,因为该数据科学问题的解决方案提供了对典型数据科学项目组成的清晰理解。
问题陈述
这个数据科学问题涉及预测 RMS Titanic 上乘客的命运,这艘著名的泰坦尼克号在从英国到纽约的航程中因与冰山相撞而沉没在大西洋。这个数据科学项目的目的是根据年龄、性别、机票等级等个人特征预测哪些乘客会在泰坦尼克号上幸存下来。
16) 使用机器学习进行房价预测
如果您认为房地产是被机器学习疏远的行业之一,那么我们想通知您,事实并非如此。该行业长期以来一直在使用机器学习算法,其中一个流行的例子是 Zillow 网站。 Zillow 有一个名为 Zestimate 的工具,它可以根据公共数据估算房屋价格。如果您是初学者,最好将此项目包含在您的数据科学项目列表中。
问题陈述
在这个数据科学项目中,任务是使用 Zillow 数据集实现回归机器学习算法来预测房屋价格。该数据集包含大约 60 个特征,并包含 2 个文件“train_2016”和“properties_2016”。这些文件通过称为“parcelid”的功能相互链接。
17) 股市预测
“我们最喜欢的持有期是永远。” - 沃伦·巴菲特
对于大多数股票投资者来说,最喜欢的问题是“我们应该持有一只股票多长时间?”。每个投资者都想知道如何不表现得过于恐惧和过于贪婪。并非所有人都有沃伦·巴菲特(Warren Buffet)来指导他们。我们建议你停止寻找他。相反,使用机器学习等人工智能工具构建您的股市预测器。解决这个问题的方法非常简单,您可以考虑将其添加到您的数据科学项目列表中。
问题陈述
通过在 EuroStockMarket 数据集上实施机器学习算法来构建股票市场预测系统。该数据集包含主要欧洲股票指数所有工作日的收盘价:德国 DAX (Ibis)、瑞士 SMI、法国 CAC 和英国 FTSE。
18) 酒质预测
在周末,我们大多数人更喜欢与亲人共进晚餐。虽然孩子们将一顿丰盛的晚餐定义为有意大利面的晚餐,但成年人喜欢在意大利菜的同时喝一杯经典的红酒,在上面加一颗樱桃。但是当谈到购买那瓶酒时,我们中的一些人会混淆哪个是最好的。很少有人相信发酵时间越长,味道就越好。很少有人认为相对较甜的葡萄酒是优质葡萄酒。要知道准确的答案,您可以尝试构建您的葡萄酒质量预测器。
问题陈述
使用红酒数据集构建葡萄酒质量预测系统。
葡萄酒质量预测数据科学项目的目标
使用 Kaggle 的红酒数据集分析红酒的哪些化学特性会影响其质量。
19) 宏观经济趋势预测
我们经常从新闻频道中听到 XYZ 国家将在 2030 年成为世界上最大的经济体之一。如果您想知道此类声明的依据是什么,请允许我帮助您。这些新闻频道依靠统计学家和数据科学家来做出这样的预测。这些数据科学家分析不同国家的几个金融数据集,然后提交他们的结论,然后成为头条新闻。好吧,如果您对围绕该领域的项目感兴趣,那么您来对了地方。
问题陈述
在 Kaggle 的金融数据集上使用机器学习算法设计宏观经济趋势预测器。
20) 信用分析
银行业的许多跨国公司现在已经开始依赖人工智能技术来对贷款申请进行分类。他们要求客户提交有关他们自己的具体详细信息。
然后,他们利用这些细节并在收集的数据上实施机器学习算法,以了解客户偿还所申请贷款的能力。您还可以尝试使用 German Credit Dataset 围绕此构建一个项目。
问题陈述
使用德国信用数据集对贷款申请进行分类。该数据集包含大约 1,000 名贷款申请人的信息。对于每个申请人,我们有 20 个特征变量。在这 20 个属性中,三个可以取连续值,其余 17 个可以取离散值。
21) 图像掩蔽
我们经常遇到希望从中删除背景并将其用于特定目的的图像。 Carvana 是一家在线初创公司,它试图建立一个自动照相馆,可以点击库存中每辆车的 16 张照片。 Cavana 以高分辨率捕捉这些照片,并带有明亮的反射。然而,有时背景中的汽车使他们的客户很难仔细观察他们选择的车辆。因此,一个可以从捕获的图像中去除背景噪音并仅突出图像主题的自动化工具对于初创公司来说就像魔术一样工作,并为他们的照片编辑器节省大量时间。您还可以实现这样的图像遮罩系统,它会自动去除背景噪音。
问题陈述
使用 Carvana 数据集,实施神经网络算法来设计去除摄影棚背景的图像遮罩系统。这种实现将使准备包含使汽车特征成为焦点的背景的图像变得容易。
22) 人类活动识别
我们使用模拟手表查看时间的日子已经一去不复返了。随着多个国际品牌设计出令人兴奋的手表,人们现在逐渐转向智能手表。智能手表是 21 世纪的酷手表,几乎进入了每个家庭。主要原因是它们提供的有吸引力的功能。从心率监测、心电图监测到锻炼跟踪,他们几乎可以做任何事情。
如果您使用过这样的手表,您会记得它经常告诉您您的睡眠质量。那么,一个从不睡觉的设备怎么会指导你的睡眠呢?要找到这个问题的答案,您可以做一个简单的数据科学项目,将一些人日常活动的数据集与连接到这些人的各种传感器收集的数据相关联。
问题陈述
在这个数据科学项目中,您需要使用机器学习算法来为人类活动识别数据集的特征分配以下六个类别中的一个类别:WALKING、WALKING_UPSTAIRS WALKING_DOWNSTAIRS、SITTING、STANDING、LAYING。
23) 个性化医疗推荐系统
癌症研究人员最近谈论的城镇是如何使用基因检测治疗癌症等疾病将成为癌症研究领域的一场革命。由于临床病理学家的巨大努力,这场梦幻般的革命已经部分实现。病理学家首先对癌症肿瘤基因进行测序,然后手动找出基因突变的解释。这是一个相当乏味的过程,并且需要花费大量时间,因为病理学家必须在临床文献中寻找证据以得出解释。但是,如果我们实施机器学习算法,这个过程可以变得顺利。
如果你想探索融合医学和人工智能的领域,这个项目将是一个良好的开端。
问题陈述
使用由纪念斯隆凯特琳癌症中心 (MSKCC) 准备的数据集自动对癌症肿瘤的每个基因突变进行分类。该数据集包含标记为肿瘤生长(驱动)和中性突变(乘客)的突变。该数据集已由世界知名研究人员和肿瘤学家手动注释。
24) 零售店推荐系统
如果您尝试过在线购物,您一定已经看到该网站试图向您推荐一些产品。您有没有想过这些网站如何提供您极有可能表现出兴趣的产品?嗯,那是因为基于机器学习的算法在后台运行,这个项目就是关于它的。
推荐系统数据科学项目的目标:
处理零售商店的数据集,为其构建高效的推荐系统并执行购物篮分析。
源代码
我们做朋友吧!跟着我 推特 和 Facebook 并在 LinkedIn 上与我联系。你可以访问我的 网站 也 。别忘了在这里关注我 中等的 以及更多技术爱好者的内容。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明