寒假总结 - 夜的第七章i

寒假总结

大型数据库技术大作业

作业内容：

1、学习构建北京市政百姓信件分析实战案例，完成

（1）采集北京市政百姓信件内容；

（2）编写 MapReduce 程序清洗信件内容数据；

（3）利用 HiveSql 语句离线分析信件内容数据；

（4）利用 Sqoop 导出 Hive 分析数据到 MySQL 库；

（5）开发 JavaWeb+ECharts 完成信件数据图表展示过程。

2、根据上述所学知识完成一个工程项目：

（1）项目名称：信息化领域热词分类分析及解释

（2）功能设计：

1) 数据采集：要求从定期自动从网络中爬取信息领域的相关热词；

2) 数据清洗：对热词信息进行数据清洗，并采用自动分类技术生成信息领域热词目录，；

3) 热词解释：针对每个热词名词自动添加中文解释（参照百度百科或维基百科）；

4) 热词引用：并对近期引用热词的文章或新闻进行标记，生成超链接目录，用户可以点击访问；

5) 数据可视化展示：

① 用字符云或热词图进行可视化展示； ② 用关系图标识热词之间的紧密程度。 6) 数据报告：可将所有热词目录和名词解释生成 WORD 版报告形式导出。

报告参考样式如下图所示：

作业要求：

1、提交信息化领域热词分类分析及解释软件（微信小程序或 APP 更佳），要求生成软件的安装程序；

2、提交结果报告一份（电子版）；

3、提交截至日期：2019-1-10。

常用自然语言处理和分析相关技术简介：

（1）自动分词技术

以词典为基础，规则与统计相结合的分词技术，有效解决切分歧义。综合运用基于概率统计的语言模型方法，分词准确性达到99%。

（2）自动关键词和自动摘要技术

对采集到的网络信息，自动摘取相关关键字，并生成摘要，并与快速浏览与检索。

（3）全文检索技术

全文检索将传统的全文检索技术与最新的 WEB 搜索技术相结合，大大提升检索

引擎的性能指标。还融合多种技术，提供丰富的检索手段以及同义词等智能检索方式。

（4）自动分类技术

基于内容对经过双重过滤处理后的重要舆情自动分类，无需人工干预，准确率达到95%以上。先设置分类关键词，每一个关键词都设置一个相应的优先级分值。对收集到的文章内容进行分析，分别对标题和内容进行匹配，统计匹配的次数，然后根据设定好的关键字匹配模型对每个关键字进行分值计算。分值超过一定分值的都将自动处理所对应的处理，匹配分值最高的关键字就自动分类。

（5）自动聚类技术

基于相似性算法的自动聚类技术，自动对海量的无规则文档进行归类，把内容相近的文档归为一类，并自动为其生成主题词，为确定类目名称提供方便。

（6）相似性排重技术

采用“文章相似性技术”根据文档内容的匹配程度确定是否重复，比利用网页标题和大小等规则判断具有更强的准确性、实用性以及运行效率。采用中文分词技术对文章关键字比较计算，得出文章相似度，相似度高于 0.75 以上的文章系统默认处理为“已处理”，无需再进行任何操作，相似度位于 0.5-0.75 之间的相似转载文章需要用户在页面进行再次确认，确保文章无漏处理。

posted on 2024-01-25 23:04 夜的第七章i 阅读(6) 评论(0) 编辑收藏举报

刷新页面返回顶部