数据集的收集
我在这里找到了一个数据集的网站:https://www.kaggle.com/datasets
我这里找到了三个小数据集为例子分别如下:
我写的数据分析如下:
1.
数据集名称 |
房价回归数据集
|
|||||
来源 |
https://www.kaggle.com/datasets/prokshitha/home-value-insights?resource=download |
|||||
数据集描述 |
该数据集包含了多个房屋的属性信息,旨在通过这些属性来预测房屋的售价。属性包括房屋面积、卧室数量、浴室数量、建造年份、地块面积、车库大小以及社区质量评级等。 |
|||||
样本数(大小) |
1000 |
属性个数 |
7(不包括目标变量) |
属性值取值范围 |
Square_Footage: 房屋面积(平方英尺),取值范围从几百到几千不等,例如 503.00 - 4999.00 Num_Bedrooms: 卧室数量,整数,取值范围从1到多个,例如 1.00 - 5.00 Num_Bathrooms: 浴室数量,整数或小数(考虑半浴室),取值范围从1.00到多个,例如 1.00 - 10.00 Year_Built: 建造年份,整数,取值范围从较旧年份到较新年份,例如 1950 - 2022 Lot_Size: 地块面积(英亩),小数,取值范围从0.51到接近5,例如 0.51 - 4.99 Garage_Size: 车库大小(可容纳的汽车数量),整数,取值范围从0到多个,例如 0.00 - 10.00 Neighborhood_Quality: 社区质量评级,整数,取值范围从1到10,例如 1 - 10
|
|
标签数量 |
1(House_Price) |
标签值\取值范围 |
房价(美元),取值范围从较低到较高,例如 503.00 - 1108236.84 |
|||
样本举例 |
Square_Footage: 1500 Num_Bedrooms: 3 Num_Bathrooms: 2.5 Year_Built: 2000 Lot_Size: 0.75 Garage_Size: 2 Neighborhood_Quality: 8 House_Price: 350000 |
|||||
面向任务 |
这是一个回归任务,目标是基于给定的房屋属性来预测房价(House_Price)。 |
2.
数据集名称 |
班加罗尔餐馆数据集
|
|||||
来源 |
https://www.kaggle.com/datasets/mrmars1010/restaurants-dataset-bengaluru |
|||||
数据集描述 |
该数据集提供了班加罗尔市餐厅的详细信息,包括餐厅名称、评分、菜系、位置(包括国家、州/省份、邮政编码、街道地址)、评论、价格范围、附带照片等。这些数据通过复杂的网络爬虫技术从TripAdvisor上精心提取,旨在为研究人员、企业和数据科学家提供有关该市餐饮行业的深入见解。 |
|||||
样本数(大小) |
7397 |
属性个数 |
15 |
属性值取值范围 |
餐厅名称: 字符串,如 "Goila Butter Chicken (GBC)" 地址: 字符串,表示街道地址 地址对象/国家: 字符串,主要是 "印度",但可能包含其他值或空值 地址对象/邮政编码: 整数或字符串,如 "560001" 地址对象/状态: 字符串,可能包含 "其他" 或印度各州/省份的名称 美食: 字符串,表示菜系类型,如 "印度美食" 描述: 字符串,描述餐厅、氛围或菜单 饮食限制: 字符串,如 "素食者" 或 "无麸质" 菜肴: 字符串列表,表示热门或招牌菜肴 特征: 字符串列表,如 "预订座位"、"桌位服务" 纬度、经度: 浮点数,表示餐厅的地理坐标 评论数: 整数,表示评论的数量 评级: 浮点数,表示餐厅的平均评分(如4.5星) 排名分母: 整数,表示用于排名的总餐厅数 排名位置: 整数,表示餐厅在特定排名中的位置
|
|
标签数量 |
该数据集主要用于描述性分析和模型训练,没有直接的“标签”用于监督学习任务,但“评级”和“排名位置”可以被视为隐式标签或目标变量,用于回归或排序任务。 |
标签值\取值范围 |
评级: 浮点数,取值范围从1到5(或类似范围) 排名位置: 整数,取值范围取决于排名分母的值
|
|||
样本举例 |
"餐厅名称": "Goila Butter Chicken (GBC)", "地址": "某街道地址", "地址对象/国家": "印度", "地址对象/邮政编码": "560001", "地址对象/状态": "其他", "美食": "印度美食", "描述": "以其著名的烟熏黄油鸡而闻名...", "饮食限制": "素食者", "菜肴": ["烟熏黄油鸡", "其他招牌菜"], "特征": ["外送", "停车"], "纬度": 12.9716, "经度": 77.5946, "评论数": 123, "评级": 4.5, "排名分母": 1000, "排名位置": 50 |
|||||
面向任务 |
分类任务: 根据菜系或特征对餐厅进行分类。 回归任务: 预测餐厅的评级或价格范围。 聚类任务: 基于餐厅的特征进行聚类分析,发现不同的餐厅群体。 情感分析: 对餐厅的评论进行情感分析,了解顾客满意度。 推荐系统: 基于用户偏好和餐厅特征构建推荐系统。 地理空间分析: 利用经纬度信息进行地图绘制和基于位置的分析。
|
3.
数据集名称 |
2024 年 FT 全球商学院 MBA 排名 100 强
|
|||||
来源 |
https://www.kaggle.com/datasets/michaeldelamaza/ft-global-business-school-top-100-mba-ranking-2024 |
|||||
数据集描述 |
该数据集包含了《金融时报》在2024年2月11日发布的全球前100所商学院的排名及相关信息。数据涵盖了多个方面,包括学校的综合排名、校友网络、碳足迹、地理位置、职业发展、薪资水平、多样性评估、项目评估以及教师专长等。这些数据对于了解全球商学院的最新动态、评估商学院的整体实力以及为潜在学生提供择校参考具有重要意义。 |
|||||
样本数(大小) |
100 |
属性个数 |
28 |
属性值取值范围 |
秩(排名): 1到100的整数 校友网络排名: 未知范围,但应为整数或排名 碳足迹排名: 未知范围,但应为整数或排名 加权工资(美元): 未知具体范围,但应为正数 职业进步排名、就业服务排名、行业多样性排名等: 未知范围,但应为整数或排名 百分比类属性(如目标实现%、女性比例%等): 0%到100% 其他属性(如国际学生比例、具有博士学位的教师比例等): 0%到100%的百分比,或具体数值(如薪资、人数等)
|
|
标签数量 |
该数据集主要用于描述性分析,没有直接的监督学习标签。但如果将排名视为标签,则标签数量为1(即排名)。但更常见的是将各个子属性(如加权工资、职业进步等)视为独立的分析维度,而不是标签。 |
标签值\取值范围 |
由于该数据集主要用于描述性分析,不直接包含监督学习标签,因此不适用“标签值\取值范围”的描述。但如果考虑排名作为隐式标签,其取值范围为1到100。 |
|||
样本举例 |
"秩": 1, "学校名称": "哈佛大学商学院", "校友网络排名": 3, "碳足迹排名": 45, "主要校区位置": "美国", "2022年排名": 2, "三年平均排名": 1.5, "2023年排名": 1, "加权工资(美元)": 150000, "职业进步排名": 2, "目标实现(%)": 90, "就业服务排名": 1, "就业三个月(%)": 95, "薪资百分比增长": 10, "现时薪资(美元)": 165000, "国际板(%)": 40, "船上女性比例 (%)": 25, "国际学生(%)": 30, "行业多样性排名": 5, "女性教师 (%)": 45, "女学生(%)": 40, "国际教师 (%)": 20, "性价比排名": 2, "总体满意度": 9.5, "ESG和净零教学排名": 3, "国际机会": 90, "国际流动性排名": 1, "国际课程体验排名": 2, "具有博士学位的教师(%)": 85, "FT研究排名": 1 |
|||||
面向任务 |
描述性分析: 分析全球商学院的各项排名和指标,了解整体趋势和个体差异。 比较分析: 对比不同商学院在各项指标上的表现,找出优势和劣势。 预测分析: 虽然该数据集本身不直接用于预测,但可以根据历史排名和趋势预测未来商学院的排名变化。 决策支持: 为潜在学生、教育机构、雇主等提供决策支持,帮助他们做出更明智的选择。
|