大数据——合并表
import pandas as pd
from sqlalchemy import create_engine
# 从数据库中读取已经合并的数据到 DataFrame 中,假设这里的数据已经合并并写入到了名为 resulttable 的表中
engine = create_engine('mysql+pymysql://root:wwsa20030207@localhost/python_bigdata')
result_df = pd.read_sql('SELECT * FROM resulttable', con=engine)
# 读取三个原始表的数据
province1_df = pd.read_excel('cg_2015年第1_2_3期.xlsx')
province2_df = pd.read_excel('cg_天津科技成果.xlsx')
province3_df = pd.read_excel('科技成果.xlsx')
# 合并三个表,并处理字段不一致的情况
merged_df = pd.concat([result_df, province1_df, province2_df, province3_df], ignore_index=True)
# 在合并后的数据中处理相似的字段合并
merged_df['序号'] = merged_df['序号'].fillna(merged_df['ID'])
# 你可以在这里根据具体的字段情况进行处理,例如对相似字段进行合并等操作
# 执行数据清洗和维度字段追加操作(见下文)
# 最后将合并后的数据写入 MySQL 数据库
merged_df.to_sql('merged_result_table', con=engine, if_exists='replace', index=False)
# 关闭连接
engine.dispose()