数据采集与融合应用综合实践

Posted on 2024-12-15 22:44  六一!!  阅读(23)  评论(0编辑  收藏  举报
序号 信息类别 内容描述
1 这个项目属于哪个课程 数据采集与融合综合实践
2 组名、项目简介 组名:福小兵,项目需求:实时舆情监控系统,项目目标:为福州大学提供舆情监控与决策辅助工具,技术路线:使用 Flask 后端、Memfire(PostgreSQL)数据库和 Vue 前端技术栈,建立从数据采集到情感分析再到可视化的完整系统
3 团队成员学号 102202141黄昕怡, 102202112刘莹,102202145谢含, 102202101马鑫,102202106王强,102202126陈家凯,102202153来再提·叶鲁别克,102202124 阿依娜孜·赛日克
4 这个项目的目标 设计并实现一个多源异构数据采集系统,通过情感分析和大数据技术总结和展示舆情,增强学校管理者对校园舆情的理解和控制力度。
5 其他参考文献 [1] Kumar, A., et al. "Real-Time Sentiment Analysis of Twitter Data." Journal of Big Data. 2021.[2] Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.[3]何炎祥, 孙松涛, 牛菲菲, & 李飞. (2017). 用于微博情感分析的一种情感语义增强的深度学习模型. 计算机学报, 40(4), 18

项目整体介绍:

Gitee文件夹链接(数据爬取及解析代码及爬取结果):https://gitee.com/liu-ying0902/liuying012/tree/master/综合应用

Github代码链接:https://github.com/fufubuff/fu_police

项目名称:福卫兵

项目背景:

随着互联网技术的迅猛发展和社交媒体的全面普及,网络舆情已成为高校管理中不可忽视的重要环节,如何有效监测、分析和引导网络舆情,已成为提升高校形象和声誉的关键任务。作为福建省重点建设的高水平大学,福州大学的公众形象不仅关乎其在省内教育体系中的地位,更对其在全国乃至全球范围内的知名度和美誉度产生深远影响。因此,本项目旨在通过系统化的舆情监测和管理策略,帮助福州大学构建积极健康的网络舆论环境,进一步巩固和提升其在国内外教育领域的影响力。

项目目标:

  1. 多源数据采集与整合
    整合文本、图片等多模态信息,建立统一的数据存储和管理方案,确保数据完整性和一致性。

  2. 细粒度情感分析与趋势预测
    基于零样本分类模型进行情感识别,结合大语言模型生成舆情报告,预测情感变化趋势。

  3. 智能舆情报告生成
    利用大语言模型自动生成结构化、可读性强的舆情分析报告,涵盖情感分析、热点和趋势。

  4. 可视化与交互展示
    开发前端页面,实现数据搜索、分析结果图表展示及舆情总结文本展示,提升用户体验。

  5. 实时监测与预警
    建立实时舆情监测系统,及时发现负面舆情并发出预警,确保快速响应和处理。

  6. 提升学校形象与声誉管理
    通过系统化的舆情监测和分析,提升福州大学在网络上的形象和声誉管理能力。

技术路线:

1.数据采集层
利用爬虫和官方 API,从微博、贴吧等平台获取与福州大学相关的多模态数据(文本、图片、视频链接等)。采集到的数据将存储在 Memfire 提供的云端 PostgreSQL 数据库中,确保数据的集中管理和高效查询,为后续的舆情分析和情感识别提供可靠的数据基础。

2.后端层(Flask)
提供 RESTful API 接口,实现以下核心功能:

  • 关键词搜索:在数据库中高效检索与指定关键词相关的内容。
    情感分析:基于深度学习模型,对文本数据进行多类别情感识别,准确识别公众情感倾向。
  • 舆情整合:进行关键词提取、高频话题检测、情感分析统计,并调用 AI 模型生成舆情总结报告。
  • 大语言模型接口整合:利用大语言模型对检索结果和情感分析结果进行二次生成和深入总结,生成结构化、可读性强的舆情分析报告。

3.前端层(Vue + HTML/CSS)

  • 前端一(用户自爬取数据和报告式分析):采用 Vue 框架搭建,提供用户友好的界面,包括搜索输入框、情感分析可视化图表、AI 总结输出等模块,帮助用户快速获取和分析舆情数据。
  • 前端二(用户对话式舆论分析和全数据库整合):
    提供对话式舆论分析功能,用户可以通过交互式界面进行更灵活的舆情查询和分析。
  • 实现全数据库整合分析,呈现整体数据分析整合表格分页、柱状图/饼图、词云翻页、音乐播放器、日历打卡彩蛋、AI 聊天窗口等丰富的交互功能。
  • 对接后端 Flask API,利用 Axios 发起请求,将搜索和分析结果通过 Chart.js 等图表库进行可视化展示,提升用户的信息获取效率和体验。

最终效果:

1、数据采集及整体数据展示

2、自动爬取存取数据库与自动检索

3、用户自情感分析

4、舆情总结

个人分工:

1.数据采集模块开发
负责从微博、贴吧等社交媒体平台获取与福州大学相关的多模态数据(文本、图片、视频链接等)。
将采集到的数据存储到 Memfire 提供的云端 PostgreSQL 数据库中,确保数据的集中管理和高效查询。

2.数据解析

(1)文本解析:
使用 MoritzLaurer/mDeBERTa-v3-base-mnli-xnli 多语言自然语言推理模型,对微博文本进行情感识别和语义分析,识别正面、负面、中性情感,并提取关键话题。解析过程中,处理了多语言文本和复杂情感表达(如讽刺、反语),通过模型微调和规则方法提升了情感识别的准确性。

(2)图片解析:
使用 deepface 模型进行图片人脸识别和表情分析,判断图片中人物的情感状态(如高兴、悲伤等)。针对人脸遮挡和角度问题,进行了图片预处理,筛选出清晰度高、角度合适的人脸图片进行解析。

(3)数据融合与存储:
将文本和图片解析结果进行融合分析,存储到 PostgreSQL 数据库中,并与原始数据关联,方便后续查询和分析。

3.PPT制作
负责项目最终汇报的 PPT 制作,内容涵盖项目背景、目标、数据采集流程、技术实现细节、成果展示及未来展望等。

心得体会:

在福小兵的开发过程中,我负责了数据采集模块和一些PPT制作工作。整个项目做下来,感觉收获满满,也踩了不少坑,在这里和大家分享一下我的心得体会。

  1. 从理论到实践,爬虫开发没那么简单
    在学校里学爬虫的时候,感觉就是发送请求、解析HTML、提取数据。然而,真正做项目时才发现,事情远没有那么简单。反爬机制是第一个拦路虎。微博这类大平台对爬虫非常敏感,各种反爬手段层出不穷,比如IP封禁、验证码、动态加载等等。为了解决这些问题,我尝试了以下几种方法:
  • 代理IP:通过使用代理池,轮换使用不同的IP,避免被封禁。
  • 设置请求头:模拟浏览器行为,设置User-Agent、Referer等请求头,伪装成正常用户访问。
  • 模拟登录:有些数据需要登录后才能访问,我研究了微博的登录机制,成功实现了模拟登录。
  • 同时,数据解析也是一大挑战。微博的页面结构复杂,数据嵌套层级很深,传统的解析方法很难奏效。我尝试了多种解析工具,并根据不同页面的结构,灵活选择解析方法,在各种外界帮助下最终实现了数据的精准提取。
  1. 数据解析,优化是关键
    数据解析是整个舆情监测系统的重要环节,直接影响到数据的可用性和分析结果的准确性。我们主要对爬取到的文本和图片进行了处理。对于文本数据,我采用了 MoritzLaurer/mDeBERTa-v3-base-mnli-xnli 多语言自然语言推理模型进行情感识别和语义分析,准确识别出正面、负面和中性情感,并提取关键话题。为了应对多语言文本和复杂情感表达(如讽刺、反语),我们通过模型微调和引入规则方法,有效提升了情感识别的准确性。对于图片数据,使用 deepface 模型进行人脸识别和表情分析,判断图片中人物的情感状态,并通过预处理筛选出清晰度高、角度合适的人脸图片进行解析。在解析过程中,通过批量处理、资源优化(如调整批处理大小和并行处理)以及结果缓存等方法,显著提升了数据解析的效率。同时,我们将解析后的数据存储到 PostgreSQL 数据库中,并优化了数据库索引和查询语句,确保数据存储和查询的高效性。这些优化措施不仅提升了数据解析的效率和准确性,也为后续的舆情监测和分析提供了可靠的数据支持。未来,我们计划继续探索更先进的解析技术和优化方法,进一步提升系统的整体性能。

  2. 团队合作,沟通很重要
    项目开发是一个团队协作的过程,良好的沟通和合作至关重要。在项目初期,我们团队制定了详细的项目计划,明确了每个人的分工和职责。在开发过程中,我们定期召开项目会议,汇报项目进展,讨论遇到的问题,并及时调整项目计划。通过有效的沟通,我们团队成员之间形成了良好的默契,确保了项目按时、高质量地完成。

  3. 团队合作,沟通很重要
    除了开发工作,我还负责了项目最终汇报的PPT制作。以前觉得PPT就是简单的文字和图片堆砌,但真正做起来才发现,要做出一份好的PPT并不容易。在PPT制作过程中,我注重以下几点:

  • 逻辑清晰:PPT的内容要有清晰的逻辑结构,让观众能够一目了然地理解项目内容。
  • 图文并茂:适当使用图表、图片等多媒体元素,使PPT更加直观易懂。
  • 简洁明了:每页PPT的内容不宜过多,要突出重点,避免信息过载。

通过本次项目,我学到了很多新的知识和技能,也积累了不少实践经验。未来,我希望能够继续深入学习大数据分析、人工智能等技术,并将这些技术应用到舆情监测系统中,进一步提升系统的智能化水平。同时,我也希望能够参与更多类似的实际项目,积累更多的实践经验,不断提升自己的综合能力。

未来展望:

  • 持续优化数据采集模块,提高效率和稳定性。
  • 扩展数据采集范围,增加更多数据来源平台。
  • 深入分析数据,挖掘更多有价值的信息。

Copyright © 2024 六一!!
Powered by .NET 9.0 on Kubernetes