综合设计——多源异构数据采集与融合应用综合实践

Posted on 2024-12-15 23:42 Bluemming 阅读(161) 评论(0) 收藏举报

Gitee项目链接：https://gitee.com/wei-yuxuan6/myproject/tree/master/实践作业

这个项目属于哪个课程	https://edu.cnblogs.com/campus/fzu/2024DataCollectionandFusiontechnology
组名	在大大的数据里面挖呀挖呀挖
项目简介	项目名称：城市记忆 Logo：项目需求：整合城市历史文化资源：需要以交互式的方式展示城市的历史发展、新旧照片、方言特色以及名人故事等内容。增强用户参与感：为用户提供交互性体验，如照片上色、语音生成、内容检索等。利用多媒体技术提升展示效果：通过地图、视频、音频、图像等多种形式，全方位展示城市记忆，构建沉浸式体验。项目开展技术路线：python、html、JavaScript、flask、mysql
团队成员学号	102202114农晨曦，102202118杨美荔、102202144傅钰、102202147赖越、102202150魏雨萱、102202152张静雯
这个项目的目标	建立多模块融合的城市记忆平台：打造一个集历史资源展示、文化传承和科技互动为一体的平台。提升用户体验与交互性：通过地图导航、名人故事展示、黑白照片上色和方言音频生成等功能，让用户更生动地了解城市文化。促进文化保护与传承：利用现代技术对城市历史资源进行数字化存档，帮助大众更便捷地探索与分享城市记忆。探索跨学科技术融合：结合深度学习、多模态技术与地理信息系统等技术，提升文化展示的深度与广度。
其他参考文献	近20 年城市记忆研究综述城市记忆与城市形态——从心理学、社会学视角探讨城市历史文化的延续星火认知大模型Web API文档

综合设计——多源异构数据采集与融合应用综合实践

项目logo：

一、项目背景

城市记忆承载着一座城市的历史、文化与情感，其背后的故事和影像是研究城市变迁与文化保护的重要资源。然而，许多城市的历史资源缺乏系统化的整理与展示，普通大众难以方便地接触这些内容。随着人工智能与多媒体技术的快速发展，利用技术手段将历史内容与现代形式结合，可以更好地传递城市文化，增强公众的文化认同感。

本项目旨在打造一个集文化传承、历史展示和用户交互为一体的多功能平台，以现代技术手段展示和保护城市历史文化资源。通过整合地图导航、历史影像、方言语音、名人故事等内容，用户可以深入了解城市的变迁与文化特色，激发对城市历史的关注与兴趣。

项目的核心理念是将深厚的城市记忆以科技化、数字化的方式呈现出来，让人们在互动体验中感受城市文化的独特魅力，同时增强文化保护意识和传承责任感。无论是历史爱好者、城市研究者，还是普通用户，网站都将为其提供生动的探索途径和丰富的内容资源。

通过现代科技手段，为用户提供一个互动性强、内容丰富的数字化平台，致力于保护与传播城市历史文化资源。网站以城市为核心，通过整合地图导航、老照片上色、方言语音合成、历史影像和名人故事等多种功能，让用户在浏览与互动中感受城市文化的独特魅力与深厚底蕴。

二、项目需求

整合城市历史文化资源：需要以交互式的方式展示城市的历史发展、新旧照片、方言特色以及名人故事等内容。
增强用户参与感：为用户提供交互性体验，如照片上色、语音生成、内容检索等。
利用多媒体技术提升展示效果：通过地图、视频、音频、图像等多种形式，全方位展示城市记忆，构建沉浸式体验。
支持个性化需求：让用户通过输入特定内容（如城市名或文本）获取对应资源（如音频或视频）。

三、项目功能介绍

1. 时空地图

功能描述：用户通过交互式地图探索城市历史文化资源。

点击地图标记点：显示对应城市的方言音频、新旧照片对比、历史发展时间轴信息。
查看名人故事：点击标记点的“名人故事”按钮跳转到城市的名人集页面，展示与该城市相关的名人列表。
名人故事展示：点击名人列表中的名人姓名，可以查看详细的名人故事，包括其生平事迹、贡献和与城市的关联性。

技术实现：

使用高德地图 API 提供地图展示与交互功能。
数据库存储包含城市地理信息及相关文化资源。
名人资源使用Spark 4.0 Ultra搜索并整理名人集和名人故事。

2. 照片上色

功能描述：

用户上传黑白照片，系统自动将其转换为色彩丰富的上色照片，直观展现历史影像的色彩还原效果。
支持多种照片格式，快速处理。
生成对比图，展示黑白原图与上色图的差异。

技术实现：

使用百度图片上色接口提供高精度的图片上色服务。
后端实现文件上传和上色结果的高效存储与展示。

3. 方言之声

功能描述：

用户输入一段文本并选择城市名称，系统自动生成对应城市方言的音频文件。
支持多种方言生成，包括粤语、东北话等。
生成音频后提供播放功能，用户可以在线收听或下载保存。

技术实现：

使用讯飞星火语音合成 API 实现高质量的多方言语音合成。

4. 时光影像

功能描述：

用户输入城市名称，系统搜索该城市的老视频并在页面中展示。
视频内容涵盖城市建设、名胜古迹、历史活动等主题。
视频可在线播放，支持用户分享和下载功能。

技术实现：

后端通过查询 MySQL 数据库，根据用户输入的城市关键词匹配相关视频链接。
视频资源通过动态渲染展示在页面，支持跨平台兼容的播放功能。

四、项目技术路线

1. 前端

使用 Vue.js 框架开发，支持动态渲染和响应式设计，兼容多种设备（PC 和移动端）。
高德地图 API 集成，用于实现地图标记与交互功能。
HTML5 和 CSS3 实现页面布局与动画效果，提升视觉吸引力。

2. 后端

基于 Flask 框架开发 RESTful API，与前端交互。
集成第三方服务接口（高德地图API、百度AI图片上色接口、讯飞星火语音合成API、Spark4.0 UltraAPI）。
提供与 MySQL 数据库的高效交互，支持查询与数据更新。

3. 数据库

使用 MySQL 数据库存储视频链接、名人信息和其他相关数据。
提供灵活的表结构设计，便于数据检索与扩展。

4. AI 技术

图片上色：集成百度AI图片上色接口，实现黑白图像智能上色。
语音合成：调用讯飞星火语音合成API生成高质量方言语音。
数据检索：借助 Spark4.0 UltraAPI 快速检索与展示名人集和名人故事数据。

5. 爬虫数据采集

使用 Python 爬虫技术 （如 Scrapy、Requests、BeautifulSoup 等）从各类公共数据源（如百科、城市历史网站、档案馆、哔哩哔哩）抓取城市历史数据、名人故事、黑白照片、老视频等内容，并存入数据库供后续处理和展示。
在搜索到名人之后使用Selenium同时爬取名人照片并展示。
动态加载和解析页面数据，清洗并规范化抓取到的信息，确保数据质量和一致性。

6. 多媒体资源管理

结合阿里云OSS（对象存储服务）管理照片、音频与视频资源，确保高效访问与展示。

五、项目展示

1. 首页

2. 地图页面

3. 选取城市

选取陕西延安，可以看到两张关于延安的图片，还有一段音频

4. 名人故事

点击右上角“查看名人故事”，可以出现一些来自陕西延安的名人，点击其中一个名人，可以看到他的简介和事迹

5. 旧影新彩

上传一张黑白图片，可以使用ai功能使其上色

6. 方言之声

可以输入一段文本，在下方选取想要转换的方言，点击生成，就可以得到这段文本的方言音频

7. 时光影像

在搜索框输入想查找的城市，可以出现这座城市的一些影像资料

六、个人分工介绍

我在这次项目中主要负责的是数据采集、预处理和特征提取与融合部分。

数据采集阶段：

从网络信息中选取爬取目标，从哪个地方下载文本文件。备选有各地博物馆信息、地方志、文旅局官网等，但是结果并不理想，每个城市的网站信息并不相同，若需要具体考虑每个城市的爬取，则要耗费太多的时间，且结果不一定理想。最后选取了爬取维基百科。里面对城市事件就有简单的分块，且也包含时间信息，符合我们的要求。

部分代码展示：

def clean_text(text):
    # 移除维基百科中的引用和其他无关字符
    text = re.sub(r"\[.*?\]", "", text)  # 去除所有的引用格式
    text = re.sub(r"（.*?）", "", text)  # 去除括号中的内容
    text = re.sub(r"[\n\s]+", " ", text)  # 去除多余的空格和换行
    return text.strip()


def fetch_city_history(city_name):
    search_url = f"https://zh.wikipedia.org/wiki/{city_name}"
    
    try:
        # 发送请求获取网页内容
        response = requests.get(search_url, verify=False)
        response.encoding = 'utf-8'

        if response.status_code != 200:
            print(f"无法访问城市: {city_name}")
            return None

        # 使用 BeautifulSoup 解析网页内容
        soup = BeautifulSoup(response.text, 'html.parser')

        # 查找历史部分，通常历史部分有一个对应的 id
        history_section = soup.find(id="历史")  # 查找历史部分的标题
        if not history_section:
            print(f"未找到历史部分: {city_name}")
            return None

        # 找到历史部分下的所有内容
        history_content = []
        for para in history_section.find_all_next(['p', 'ul', 'ol']):
            text = para.get_text(strip=True)
            if text:
                history_content.append(text)

        # 如果没有找到任何历史内容
        if not history_content:
            print(f"未找到历史内容: {city_name}")
            return None

        # 合并所有历史内容并进行清理
        history_text = "\n".join(history_content)
        cleaned_history_text = clean_text(history_text)

        return {
            "history": [
                {"event": "历史沿革", "description": cleaned_history_text, "date": "不确定"}
            ]
        }

    except Exception as e:
        print(f"发生错误：{e}")
        return None

特征提取阶段：

对上一个阶段采集到的文本数据进行特征提取。我们的需求是按照年份划分时间轴，然后可以从时间轴上看到某个城市发生较大变化/事件的时间。由于提取的文本里面有时间信息，所以可以直接采用正则匹配，在年份的地方进行分割。由于我并没有在采集完数据后先进行数据清洗，所以在这个阶段提取完特征后会出现很多问题。例如古代的年份概念实际上比不上直接用朝代来进行划分，再就是有一些年份是使用民国纪年，需要换算才能得到具体年份。所以在这个阶段，我用正则表达式提取后，对数据的清洗融合花了较长时间，对于每个城市的年份与事件都要一一查看，是否有分割不完全，以及同一个年份的事件分割成了好几块的情况。

部分代码展示：

# 提取并分割每个城市的历史描述
def extract_and_split_by_time(city_data):
    history_text = city_data['history'][0]['description']
    
    # 使用正则表达式提取所有的年份（例如 "1985年"、"1954年8月" 等）
    time_pattern = r'(\d{4}年|\d{4}年\d{1,2}月\d{1,2}日|\d{4}年\d{1,2}月)'
    times = re.findall(time_pattern, history_text)
    
    split_text = []
    start_idx = 0
    
    # 按时间分割历史描述
    for time in times:
        time_pos = history_text.find(time, start_idx)
        
        if time_pos != -1:
            # 截取时间前的部分
            text_before = history_text[start_idx:time_pos].strip()
            if text_before:
                split_text.append((text_before, None))  # 没有时间标签前的部分
            
            # 截取当前时间后的部分
            start_idx = time_pos
            end_idx = history_text.find('。', start_idx) + 1  # 假设按句号结束
            
            if end_idx != -1:
                text_after = history_text[start_idx:end_idx].strip()
                split_text.append((text_after, time))
                
                start_idx = end_idx  # 更新开始索引，继续查找下一个时间段
            else:
                split_text.append((history_text[start_idx:], time))
                break
    
    return split_text

刷新页面返回顶部

lljyutt

公告