数据集收集-包含《COVID-19》,《英国在线零售业务》,《电商行业用户行为分析数据集》,《电商婴儿用户》,《亚马逊手机》等17个数据集,用于数据分析挖掘,kaggle比赛练习
- COVID-19数据集
本数据集记录了2019年12月01日至2020年7月24日,每日精确到国家、省、市的确诊、疑似、治愈、死亡人数。2020年02月07后数据从今日头条接口采集,每小时57分自动更新。国家、省级历史数据会根据卫健委数据更新,市级历史数据与卫健委数据有差异(略小于)。提供CSV、JSON格式数据。
通过本数据集,可以了解COVID-19爆发以来,国内各省和国外国家疫情变化情况。使用机器学习知识对其进行充分的挖掘,并以直观的形式表达出来。
- https://raw.githubusercontent.com/canghailan/Wuhan-2019-nCoV/master/Wuhan-2019-nCoV.csv
- https://raw.githubusercontent.com/canghailan/Wuhan-2019-nCoV/master/Wuhan-2019-nCoV.json
CSV转JSON
省市区、国家代码
- https://raw.githubusercontent.com/canghailan/Wuhan-2019-nCoV/master/ChinaAreaCode.csv
- https://raw.githubusercontent.com/canghailan/Wuhan-2019-nCoV/master/CountryCode.csv
数据使用示例
let data_list = parseCSV(`date,country,countryCode,province,provinceCode,city,cityCode,confirmed,suspected,cured,dead2020-01-16,中国,CN,,,,,45,0,15,22020-01-16,中国,CN,湖北省,420000,,,45,0,15,22020-01-16,中国,CN,湖北省,420000,武汉市,420100,45,0,15,22020-01-16,日本,JP,,,,,1,0,0,02020-01-16,泰国,TH,,,,,1,0,0,02020-01-17,中国,CN,,,,,62,0,19,22020-01-17,中国,CN,湖北省,420000,,,62,0,19,22020-01-17,中国,CN,湖北省,420000,武汉市,420100,62,0,19,22020-01-18,中国,CN,,,,,198,0,24,32020-01-18,中国,CN,湖北省,420000,,,121,0,24,32020-01-18,中国,CN,湖北省,420000,武汉市,420100,121,0,24,32020-01-19,中国,CN,,,,,275,0,25,42020-01-19,中国,CN,湖北省,420000,,,198,0,25,32020-01-19,中国,CN,湖北省,420000,武汉市,420100,198,0,25,32020-01-19,中国,CN,广东省,440000,,,1,0,0,02020-01-19,中国,CN,广东省,440000,深圳市,440300,1,0,0,0`, { confirmed: Number, suspected: Number, cured: Number, dead: Number });// 2020-01-16所有数据let date_list = data_list.filter(e => e.date == '2020-01-16');// 2020-01-16所有国家级数据let date_country_list = data_list.filter(e => e.date == '2020-01-16' && !e.province);// 2020-01-19所有省级数据let date_province_list = data_list.filter(e => e.date == '2020-01-19' && e.province && !e.city);// 2020-01-19湖北省所有市级数据let date_province_city_list = data_list.filter(e => e.date == '2020-01-19' && e.province == '湖北省' && e.city);// 2020-01-19湖北省武汉市数据let date_city = data_list.filter(e => e.date == '2020-01-19' && e.province == '湖北省' && e.city == '武汉市');// 中国所有时间数据let country_list = data_list.filter(e => e.country == '中国' && !e.province);// 湖北省所有时间数据let province_list = data_list.filter(e => e.province == '湖北省' && !e.city);// 湖北省武汉市所有时间数据let city_list = data_list.filter(e => e.province == '湖北省' && e.city == '武汉市');
数据说明
字段 | 说明 |
date | 时间(天) |
country | 国家 |
countryCode | 国家代码 |
province | 省 |
provinceCode | 省代码 |
city | 市 |
cityCode | 市代码 |
confirmed | 确诊人数 |
suspected | 疑似人数 |
cured | 治愈人数 |
dead | 死亡人数 |
Report # 卫健委通报数据
ReportData # 卫健委通报整理后数据
PIIS0140673620301835.pdf # 2019-12-01至2019-01-02实验室数据
Wuhan-2019-nCoV.csv # CSV格式完整数据(数据格式较小,建议使用)
Wuhan-2019-nCoV.json # JSON格式完整数据
Wuhan-2019-nCoV.xlsx # EXCEL格式完整数据,供阅读、手工处理
parseCSV.js # CSV转JSON
ChinaAreaCode.csv # 中国行政区划代码,来自中华人民共和国民政部
CountryCode.csv # 国家地区代码(ISO_3166-1)
- 霍乱病例数据集
霍乱是由进食或饮用被霍乱弧菌污染的食物或水引起的急性腹泻感染。 霍乱仍然是对公共卫生的全球威胁,是不平等和社会发展不足的指标。 研究人员估计,每年全世界有130至400万霍乱病例,由于感染而导致21,000至1433,000例死亡。
该数据集包含1个文件data.csv,该data.csv文件具有6个字段,即国家名称、年份、霍乱确诊人数、确诊死亡人数、霍乱致死率和世卫分部等,该data.csv包含国家/地区编号 1949年至2016年的病例,死亡和CFR(病死率)。其中,训练集中包含除疫情外的所有领域的新闻,测试集只包含疫情领域的新闻。
可用于统计霍乱病的感染情况,同时练习机器学习算法。
来源/收集过程:Cholera Dataset | Kaggle
- 印度的每日发电量(2017-2020)
印度是世界第三大电力生产国和第三大电力消费国。截至2020年3月31日,印度国家电网的装机容量为370.106 GW。可再生能源发电厂(包括大型水力发电厂)占印度总装机容量的35.86%。印度电力部门的驱动力是其快速增长的经济,出口增长,基础设施改善和家庭收入增加。
该研究有2个CSV文件。每个文件都有详细的文件,行和列的描述,以便于用户理解。
来源/收集过程:
Daily Power Generation in India (2017-2020) | Kaggle
- 离散制造过程中典型工件的质量符合率预测
离散制造过程中典型工件的质量符合率预测赛道。其中,first为赛题初赛数据集,分为训练集和测试集,second为赛题复赛数据集,分为训练集和测试集在此任务中,以某典型工件生产过程为例,我们将提供给参赛者一系列工艺参数,以及在相应工艺参数下所生产工件的质量数据。该数据来源于某工厂采集的真实数据,已做脱敏处理。
(1)训练数据将提供:
A:工艺参数(如设备加工参数)
B:工件的质量数据
C:工件所符合的质检指标
(2)测试数据将提供:
A:工艺参数(如设备加工参数)
数据说明DATA DESCRIPTION】
(1)训练数据集文件名称为first_round_training_data.csv,csv格式,其中包含21个字段,6000行,含A,B,C三类数据,具体信息如下:
字段类型 | 字段名 | 数据类型 | 取值范围 | 字段解释 |
A | Parameter1 | Float | (0,3.9e+09] | 工艺参数1 |
A | Parameter2 | Float | (0,1.4e+09] | 工艺参数2 |
A | Parameter3 | Float | (0,2.9e+09] | 工艺参数3 |
A | Parameter4 | Float | (0,3.7e+08] | 工艺参数4 |
A | Parameter5 | Float | (0,70] | 工艺参数5 |
A | Parameter6 | Float | (0,43] | 工艺参数6 |
A | Parameter7 | Float | (0,2.4e+04] | 工艺参数7 |
A | Parameter8 | Float | (0,7.6e+04] | 工艺参数8 |
A | Parameter9 | Float | (0,6.1e+08] | 工艺参数9 |
A | Parameter10 | Float | (0,1.5e+04] | 工艺参数10 |
B | Attribute1 | Float | (0,1.2e+07] | 工件属性1 |
B | Attribute2 | Float | (0,3.2e+08] | 工件属性2 |
B | Attribute3 | Float | (0,5.1e+09] | 工件属性3 |
B | Attribute4 | Float | (0,6.3e+07] | 工件属性4 |
B | Attribute5 | Float | (0,6.4e+09] | 工件属性5 |
B | Attribute6 | Float | (0,2.6e+07] | 工件属性6 |
B | Attribute7 | Float | (0,8.5e+09] | 工件属性7 |
B | Attribute8 | Float | (0,5.6e+10] | 工件属性8 |
B | Attribute9 | Float | (0,1.8e+12] | 工件属性9 |
B | Attribute10 | Float | (0,2.0e+11] | 工件属性10 |
C | Quality_label | Categorical | {Fail, Pass, Good, Excellent} | 工件所符合的质检指标,包括四类,其中Fail: 质检不合格;Pass:质检合格;Good:质检结果为良;Excellent:质检结果为优。 |
2)测试数据集文件名称为first_round_testing_data.csv,包含11个字段,仅提供A类数据,具体信息如下:
字段类型 | 字段名 | 数据类型 | 取值范围 | 字段解释 |
ID | Group | Int | 0,1,2,……,N-1 | 测试集工件数据点所对应的工艺参数组别。 |
A | Parameter1 | Float | (0,3.9e+09] | 工艺参数1 |
A | Parameter2 | Float | (0,1.4e+09] | 工艺参数2 |
A | Parameter3 | Float | (0,2.9e+09] | 工艺参数3 |
A | Parameter4 | Float | (0,3.7e+08] | 工艺参数4 |
A | Parameter5 | Float | (0,70] | 工艺参数5 |
A | Parameter6 | Float | (0,43] | 工艺参数6 |
A | Parameter7 | Float | (0,2.4e+04] | 工艺参数7 |
A | Parameter8 | Float | (0,7.6e+04] | 工艺参数8 |
A | Parameter9 | Float | (0,6.1e+08] | 工艺参数9 |
A | Parameter10 | Float | (0,1.5e+04] | 工艺参数10 |
来源/收集过程:离散制造过程中典型工件的质量符合率预测 Competitions - DataFountain
- 俄罗斯客运航空服务
有关2007年至2020年俄罗斯机场客运量的信息。取自俄罗斯联邦运输部的官方网站,文件按月包含机场ecah中的abaut passer航空交通信息。机场也有地理坐标。
来源/收集过程:
Russian passenger air service 2007-2020 | Kaggle
- 电影数据集
本数据集包括2017年7月或之前发布的电影,列出的所有45,000部电影的元数据。数据点包括演员,工作人员,情节关键词,预算,收入,海报,发布日期,语言,制作公司,国家,TMDB投票数和投票平均数。此数据集还包含所有45,000部电影中包含来自270,000个用户的2600万个评级的文件,评级为1-5。
该数据集包含7个文件:
movies_metadata.csv
主要的电影元数据文件。包含有关Full MovieLens数据集中的45,000部电影的信息。功能包括海报,背景,预算,收入,发布日期,语言,生产国家和公司。
keywords.csv
包含MovieLens电影的电影情节关键字。以字符串化JSON对象的形式提供。
credits.csv
由我们所有电影的演员表和工作人员信息组成。以字符串化JSON对象的形式提供。
links.csv
包含Full MovieLens数据集中所有电影的TMDB和IMDB ID的文件。
links_small.csv
包含Full Dataset的9,000部电影的一小部分的TMDB和IMDB ID。
ratings_small.csv
来自9,000部电影的700名用户的100,000个评级的子集。
ratings.csv
来自9,000部电影的700名用户的100,000个评级。
整体特征
数据集合名称 | 数据类型 | 字段数 | 行数 | 值缺失 | 相关任务 |
movies_metadata | 数值数据 | 24 | / | 有 | 特征工程 |
keywords | 数值数据 | 2 | 45.5k | 有 | 特征工程 |
credits | 数值数据 | 3 | 45.5k | 有 | 特征工程 |
links | 数值数据 | 3 | 45.8k | 有 | 特征工程 |
links_small | 数值数据 | 3 | 9125 | 有 | 特征工程 |
ratings_small | 数值数据 | 4 | 100k | 有 | 特征工程 |
ratings | 数值数据 | 4 | 26.0m | 有 | 特征工程 |
探索方向:
根据特定指标预测电影收入和/或电影成功。什么电影往往会在TMDB上获得更高的投票数和投票平均数?构建基于内容和协同过滤的推荐引擎
来源/收集过程:海量电影数据集 数据集 - DataFountain
- 大学生助学金精准资助预测案例
- 数据集介绍
数据集包括楼盘信息数据、微博签到数据、招聘岗位数据、求职简历数据、创业项目数据、公司注册数据、项目招标数据。
- 楼盘信息数据的字段为:房产地址、房产均价、面积、开发商、物业、户型等
- 微博签到数据的字段为:签到微博、地点、时间、转发、评论、对应的用户信息等
- 招聘岗位数据的字段为:公司名称、招聘岗位、岗位优势、行业领域,学位、工作经验要求等
- 求职简历数据的字段为:专业、院校、意向行业职位、期望薪资、前序工作单位、职位信息等
- 创业项目数据的字段为:公司名称、注册资本、项目名称、融资阶段、融资金额、注册资本、行业领域、地址等
- 公司注册数据的字段为:公司名称、注册资本、公司类型、营业范围、公司状态等 7)项目招标数据的字段为:项目名称、招标公司、招标内容、代理公司、投标公司等。
数据集下载地址:DC竞赛——领先的大数据与人工智能竞赛平台
- 数据分析代码
数据清洗和数据分析链接:
https://github.com/lzddzh/DataMiningCompetitionFirstPrize
- 黑色星期五数据集
本数据集是零售商店中进行的交易的样本,数据集有一个BlackFriday.csv文件,包含538000条记录,12个字段,具体为商品ID、性别、年龄、行业、城市类别、所在城市年数、婚姻状况、产品类别1、产品类别2、产品类别3、采购额(美元)等。,具体信息如下
通过此数据集可以对消费者的消费行为进行研究,可以研究回归问题,借助其他变量中包含的信息来预测因变量(购买量)。也可以研究分类问题,因为几个变量是分类的,其他一些方法可能是“预测消费者的年龄”,甚至“预测购买的商品类别”。 此数据集对于研究群体也特别方便,并且可能在其中找到不同的消费者群体。
整体特征:
文件BlackFriday.csv包含12个字段,538000行,具体信息如下
探索方向:
- 可以研究回归问题,借助其他变量中包含的信息来预测因变量(购买量)。
- 可以研究分类问题,因为几个变量是分类的,其他一些方法可能是“预测消费者的年龄”,甚至“预测购买的商品类别”。 此数据集对于研究群体也特别方便,并且可能在其中找到不同的消费者群体。
来源/收集过程:数据集 - DataFountain
- 瓜子二手车汽车数据
本数据集包含6000辆瓜子二手车汽车数据。主要字段有标题、城市、车源号、车主报价、新车指导价、上牌时间、里程、上牌地、排量、变速箱、车主
、当前采集时间、标签等信息。
该数据集可用于统计分析二手车交易信息,最终将分析结果可视化展现出来。
来源/收集过程:瓜子二手车汽车数据 数据集 - DataFountain
- 电子游戏销售数据集
数据集包含销售量超过100,000个的视频游戏列表。
主要字段包含:
排名-整体销售排名、
名称-游戏名称、
平台-游戏版本的平台(例如PC,PS4等)、
年-游戏发行年份、
类型-游戏类型、
发布者-游戏的发布者、
NA_Sales-北美销售额(百万)、
EU_Sales-欧洲的销售额(百万)、
JP_Sales-在日本的销售额(百万)、
Other_Sales-世界其他地区的销售额(百万)、
Global_Sales-全球总销售额。
该数据集可用于统计分析电子游戏销售情况,最终将分析结果可视化展现出来。
来源/收集过程:电子游戏销售数据集 数据集 - DataFountain
- Bosch 流水线降低次品率数据
数据来自产品在Bosch真实生产线上制造过程中的设备记录,体现了每件产品在生产过程中的相关参数和设备运转情况,希望以此来降低次品产品的产生和下线。
来源/收集过程:数据集 -- Bosch 流水线降低次品率数据【Kaggle竞赛】 | 聚数力平台 | 大数据应用要素托管与交易平台
- 电商行业用户行为分析数据集
1、数据集介绍
本数据集提供20000用户的完整行为数据以及百万级的商品信息。数据包含两个部分。第一部分是用户在商品全集上的移动端行为数据(D),表名为tianchi_fresh_comp_train_user_2w,包含如下字段有用户标识、商品标识、用户对商品的行为类型等。第二个部分是商品子集(P),表名为tianchi_fresh_comp_train_item_2w,包含如下字段商品标识、商品位置的空间标识,可以为空、商品分类标识等。
来源/收集过程:天池新人实战赛之[离线赛]赛题与数据-天池大赛-阿里云天池
- 数据分析代码
数据清洗和数据分析链接:https://github.com/PnYuan/Tianchi-BigData
探索方向:
1.可以研究回归问题,借助其他变量中包含的信息来预测用户在接下来一天对商品子集购买行为预测。
- 亚马逊食品评论
该数据集包括对来自亚马逊的精美食品的评论。这些数据的使用期限超过10年,包括1999年10月至2012年10月约500,000条评论。评论包括产品和用户信息,评级以及纯文本评论。它还包括来自所有其他亚马逊类别的评论。
数据形状为:568k 行x 10列,10个字段分别为:ID,产品ID,用户ID,用户名,帮助性分子数,帮助性分母数,评分(1-5),评论时间,评论概括,评论内容
来源/收集过程:
Consumer Reviews of Amazon Products | Kaggle
- 电商婴儿用户
电商婴儿用户数据集,其中包含了900多万名儿童的信息(生日和性别),这些信息是由消费者提供的,他们分享这些信息是为了获得更好的推荐或搜索结果。它包含了消费者在淘宝或天猫提供的900多万个孩子的生日和性别。
来源/收集过程:数据集-阿里云天池
- 英国在线零售业务
这是一个跨国数据集,其中包含2010年12月12日至2011年12月9日期间发生的所有在英国注册的非商店在线零售业务的交易。该公司主要销售独特的全场礼品,并且大部分客户是批发商。
数据形状为:542k 行x 8列,8个字段分别为发票号,发票日期,商品码,商品描述,数量,单价,顾客ID,国家。
来源/收集过程:E-Commerce Data | Kaggle
- 餐厅营业收入
餐厅营业收入预测建模竞赛提供了137家餐厅的信息作为数据,包括:开业时间、地点、城市类型、人口统计、房地产和商业等相关属性信息。
来源/收集过程:Restaurant Revenue Prediction | Kaggle
- 亚马逊手机
PromptCloud提取了亚马逊网站上销售的40万条解锁手机的评论,从评论、评分、价格及其关系方面进行深入了解。
来源/收集:
Amazon Reviews: Unlocked Mobile Phones | Kaggle
- 便利店数据
这个数据类似于国内很多便利商店 (商品种类有限),如seven-eleven,罗森,甚至专注于食品的盒马鲜生的销售数据分析和会员情况分析。包括了558077个交易,总单品量240008,这个数据包括了7个字段。
来源/收集:Online Retail | Kaggle
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)