【机器学习】24个终极项目提升您的机器学习知识和技能
https://blog.csdn.net/ChenVast/article/details/81531882
介绍
数据科学项目为您提供了一个有前途的方式来启动您在该领域的职业生涯。您不仅可以通过应用来学习数据科学,还可以在简历中展示项目!如今,招聘人员通过他/她的工作来评估候选人的潜力,而不是非常重视认证。如果你只是告诉他们你知道多少你没有什么可以展示它们就没关系了!这是大多数人挣扎和错过的地方。
你之前可能已经解决了几个问题,但是如果你不能使它变得易于理解和解释,那么究竟有人会知道你的能力是什么?这些项目将帮助您。想想你在这些项目上花费的时间,比如你的培训课程。你练习的时间越多,你就越好!
我们确保为您提供来自不同领域的各种问题的味道。我们相信每个人都必须学会巧妙地处理大量数据,因此包含了大量数据集。此外,我们确保所有数据集都是开放的,并且可以自由访问。
有用的信息
为了帮助您确定从哪里开始,我们将此列表分为3个级别,即:
- 初级: 此级别包含相当容易使用的数据集,并且不需要复杂的数据科学技术。您可以使用基本回归或分类算法来解决它们。此外,这些数据集有足够的开放教程可以帮助您。在此列表中,我们还提供了帮助您入门的教程。
- 中级:此级别包含更具挑战性的数据集。它由大中型数据集组成,需要一些严格的模式识别技能。此外,功能工程将在这里发挥作用。ML技术的使用没有限制; 阳光下的一切都可以投入使用。
- 高级:此级别最适合了解神经网络,深度学习,推荐系统等高级主题的人员。此处还介绍了高维数据集。此外,这是获得创意的时候。查看科学家为其工作和代码带来的最佳创造力。
目录
- 初学者级
- 虹膜数据
- 贷款预测数据
- Bigmart销售数据
- 波士顿住房数据
- 时间序列分析数据
- 葡萄酒质量数据
- Turkiye学生评估数据
- 高度和重量数据
- 中级水平
- 黑色星期五数据
- 人类活动识别数据
- 暹罗竞争数据
- 旅行历史数据
- 百万歌数据
- 人口普查收入数据
- 电影镜头数据
- Twitter分类数据
- 先进水平
- 识别您的数字
- 城市声音分类
- Vox名人数据
- ImageNet数据
- 芝加哥犯罪数据
- 印度演员数据的年龄检测
- 推荐引擎数据
- VisualQA数据
初学者级
1.虹膜数据集
这可能是模式识别文献中最通用,最简单和最有资源的数据集。没有什么比Iris数据集更简单的学习分类技术了。如果您对数据科学不熟悉,那么这就是您的起点。数据只有150行和4列。
问题:根据可用属性预测花的类。
2.贷款预测数据集
在所有行业中,保险领域是分析和数据科学方法的最大用途之一。该数据集让您体验到保险公司数据集的工作 - 面临的挑战,使用的策略,影响结果的变量等。这是一个分类问题。数据有615行和13列。
问题:预测贷款是否会获得批准。
3.大卖场销售数据集
零售业是另一个广泛使用分析来优化业务流程的行业。使用数据科学技术可以巧妙地处理产品放置,库存管理,定制报价,产品捆绑等任务。顾名思义,此数据包含销售商店的交易记录。这是一个回归问题。该数据有8523行12个变量。
问题:预测商店的销售情况。
4.波士顿住房数据集
这是模式识别文献中使用的另一种流行数据集。该数据集来自波士顿(美国)的房地产行业。这是一个回归问题。该数据有506行和14列。因此,它是一个相当小的数据集,您可以尝试任何技术,而不必担心笔记本电脑的内存被过度使用。
问题:预测自住房屋的中位数值。
5.时间序列分析数据集
时间序列是数据科学中最常用的技术之一。它具有广泛的应用 - 天气预报,预测销售,分析同比趋势等。此数据集特定于时间序列,这里的挑战是预测交通方式的交通。数据有**行和**列。
问题:预测新运输方式的流量。
6.葡萄酒质量数据集
这是数据科学初学者中最受欢迎的数据集之一。它分为2个数据集。您可以对此数据执行回归和分类任务。它将测试您在不同领域的理解 - 异常值检测,特征选择和不平衡数据。此数据集中有4898行和12列。
问题:预测葡萄酒的质量。
7. Turkiye学生评估数据集
该数据集基于学生为不同课程填写的评估表。它具有不同的属性,包括出勤率,难度,每个评估问题的得分等。这是一个无监督的学习问题。数据集有5820行和33列。
问题:使用分类和聚类技术来处理数据。
8.高度和权重数据集
这是一个相当简单的问题,非常适合从数据科学开始的人。这是一个回归问题。数据集有25,000行和3列(索引,高度和重量)。
问题:预测一个人的身高或体重。
中级水平
1.黑色星期五数据集
该数据集包括在零售商店捕获的销售交易。这是一个经典的数据集,可以从多种购物体验中探索和扩展您的功能工程技能和日常理解。这是一个回归问题。数据集有550,069行和12列。
问题: 预测购买金额。
2.人类活动识别数据集
该数据集是从通过嵌入式惯性传感器启用的智能手机捕获的30个人类受试者的记录中收集的。许多机器学习课程将这些数据用于教学目的。轮到你了。这是一个多分类问题。该数据集有10,299行和561列。
问题:预测人类的活动类别。
3.文本挖掘数据集
该数据集最初来自2007年举行的Siam Text Mining竞赛。该数据包括描述某些航班中发生的问题的航空安全报告。这是一个多分类和高维问题。它有21,519行和30,438列。
问题:根据标签对文档进行分类。
4.旅行历史数据集
该数据集来自美国的自行车共享服务。此数据集要求您锻炼您的专业数据调整技能。数据从2010年(第四季度)开始按季度提供。每个文件有7列。这是一个分类问题。
问题:预测用户类别。
5.百万歌数据集
您是否知道数据科学也可用于娱乐行业?现在就自己动手吧。该数据集提出了回归任务。它由5,15,345个观测值和90个变量组成。然而,这只是大约一百万首歌曲的原始数据库的一小部分 。
问题:预测歌曲的发行年份。
6.人口普查收入数据集
这是一种不平衡的分类和经典的机器学习问题。你知道,机器学习被广泛用于解决诸如癌症检测,欺诈检测等不平衡问题。是时候弄脏你的手。该数据集有48,842行和14列。为了获得指导,您可以检查此 不平衡数据项目。
问题:预测美国人口的收入水平。
7.电影镜头数据集
你有建立推荐系统吗?这是你的机会!该数据集是数据科学行业中最受欢迎的引用数据集之一。它有各种尺寸。在这里,我使用了相当小的尺寸。它拥有来自4,000部电影的6,000名用户的100万评级。
问题:向用户推荐新电影。
8. Twitter分类数据集
使用Twitter数据已成为情绪分析问题的一个组成部分。如果您想在这个领域为自己创造一个利基市场,那么您将有机会应对这个数据集带来的挑战。数据集大小为3MB,有31,962条推文。
问题:确定那些讨厌推文的推文,哪些不是。
先进水平
1.确定您的数字数据集
此数据集允许您研究,分析和识别图像中的元素。这正是您的相机使用图像识别检测您的脸部的方式!现在轮到您构建并测试该技术了。这是一个数字识别问题。该数据集具有7,000个28×28大小的图像,总计31MB。
问题:识别图像中的数字。
2.城市声音分类
当您开始机器学习之旅时,您会遇到简单的机器学习问题,例如泰坦尼克号生存预测。但是,当谈到现实生活中的问题时,你仍然没有足够的练习。因此,此练习题旨在向您介绍通常的分类场景中的音频处理。该数据集包含来自10个班级的8,732个城市声音摘录。
问题:从音频中分类声音类型。
3. Vox Celebrity Dataset
音频处理正迅速成为深度学习的重要领域,因此这是另一个具有挑战性的问题。该数据集用于大规模说话人识别,包含从YouTube视频中提取的名人所说的单词。这是一个有趣的用例,用于隔离和识别语音识别。这些数据包含了1,251名名人所说的100,000个话语。
问题:弄清楚语音属于哪个名人。
4. ImageNet数据集
ImageNet提供各种问题,包括对象检测,本地化,分类和屏幕解析。所有图像都是免费提供的。您可以搜索任何类型的图像并围绕它构建项目。截至目前,这款图像引擎拥有超过1500万张多种形状的图像,尺寸可达140GB。
问题:要解决的问题是您下载的图像类型。
5.芝加哥犯罪数据集
如今,每个数据科学家都希望能够处理大型数据集。当公司具有处理完整数据集的计算能力时,公司不再喜欢处理样本。此数据集为您提供了在本地计算机上处理大型数据集所需的实践经验。问题很简单,但数据管理才是关键!该数据集具有6M观测值。这是一个多分类问题。
问题:预测犯罪类型。
6.印度演员数据集的年龄检测
对于任何深度学习爱好者来说,这都是一项极具挑战性的挑战。该数据集包含数千张印度演员的图像,您的任务是确定他们的年龄。手动选择所有图像并从视频帧中裁剪,导致比例,姿势,表情,照明,年龄,分辨率,遮挡和化妆的高度可变性。训练集中有19,906个图像,测试集中有6,636个图像。
问题:预测演员的年龄。
7.推荐引擎数据集
这是一项高级推荐系统挑战。在这个实践问题中,您将获得他们之前解决过的程序员和问题的数据,以及他们解决该特定问题所花费的时间。作为数据科学家,您构建的模型将帮助在线评委决定向用户推荐的下一级问题。
问题:根据用户的当前状态预测解决问题所花费的时间。
开始: 获取数据
8. VisualQA数据集
VisualQA是一个包含有关图像的开放式问题的数据集。这些问题需要了解计算机视觉和语言。此问题有一个自动评估指标。数据集有265,016个图像,每个图像3个问题,每个问题10个基础真实答案。
问题:使用深度学习技术回答有关图像的开放式问题。
结束笔记
在上面列出的24个数据集中,您应该首先找到与您的技能组匹配的数据集。比如,如果您是机器学习的初学者,请避免从一开始就使用高级数据集。不要咬得比你能咀嚼的多,也不要为你还要做多少感到不知所措。相反,专注于逐步进步。
完成2到3个项目后,在简历和GitHub配置文件中展示它们(非常重要!)。如今,很多招聘人员通过检查他们的GitHub档案来招聘候选人。您的动机不应该是完成所有项目,而是根据要解决的问题,域和数据集大小选择所选项目。如果您想查看完整的项目解决方案,请查看本文。
你觉得这篇文章有用吗?您是否已在这些数据集上构建了任何项目?请在下面的评论部分分享您的经验,学习和建议。