网络空间安全导论 20212305杨贯宇 第十二周学习总结
第五章 内容安全基础
5.1 信息内容安全概述
信息内容安全是研究利用计算机从包含海量信息并且迅速变化的网络中对特定安全主题相关问题进行自动获取、识别和分析的技术。对提高网络使用效率,净化网络空间,保障社会稳定有重大意义。
5.2 信息内容安全威胁
信息内容安全主要建立在保密性、完整性、可用性之上。
一方面:内容安全所面临的威胁有泄露,欺骗,破坏和簒夺。另一方面,一些而已信息的传播也是信息内容安全面临的潜在安全威胁。
5.3 网络信息内容获取
网络信息内容获取技术
早期传统网络媒体信息获取的方法的技术的实质,可以统一归属于采用网络交互过程编程重构机制实现网络媒体信息获取。
工具
网络爬虫是在互联网上实施信息获取的主要工具。网络爬虫是一种按照一定的规则,自动抓取互联网信息的程序或者脚本。
网络爬虫可以在超链接所建立的网上穿越。
网络爬虫通常采用分布式机制来保证信息获取的全面性和时效性。
一方面,适当通过周期间隔遍历时间间隔,防止信息获取行为造成网络媒体负载过重;另一方面通过定期修改用于内容获取的网络客户端信息请求内容,避免遭遇目标网络媒体的拒绝服务。
特征抽取与选择
文本特征选取的方法:用映射或变换的方法把原始特征变换为较少的新特征。
从原始特征中挑选出一些最具代表性的特征。
根据专家的知识挑选最有影响的特征。
用数学的方法进行选取,找出最具 分类信息的特征。(这种方法是一种精确的方法,人为因素干扰少,尤其适合文本自动分类挖掘系统的应用。)
基于帧的音频特征的主要有:
1.MFCC
2.频域能量
3.子带能量比
4.过零比
5.基音频率
常见的基于片段的音频特征主要有以下几种:
1.静音帧频
2.高过零帧频
3.低能量帧频
4.谱通量
5.和谐度
图像的特征抽取和选择主要包含以下:
1.图像颜色特征提取
常见颜色特征有:颜色直方图,颜色聚合矢量,颜色矩阵等。
颜色直方图从某种颜色出现的概率来描述图像的颜色特征。
2.图像纹理特征提取
常见纹理特征有:灰度共生矩阵,Gabor小波特征,Tamura纹理特征等。
除了这两种,现在的图像分类、检索系统中还使用边缘特征和轮廓特征。
5.4 信息内容分析与处理
分类
分类算法在图像分类、索引和内容理解方面都要直接应用。
主要通过分析不同图像特征之间存在的差异,将其分为若干类别。
以下是三种分类器
1.线性分类器
通过训练集构造出一个线性判别函数,在运行过程中根据该判别函数的输出,确定数据类别。
2.最近邻分类法
没有复杂 的学习过程,分类结果仅取决于测试样本与各类训练样本点之间的距离。
3.支持向量机
是一种监督学习的方法,属于一般化线性分类器,能够同时最小化经验误差与最大化几何边缘区。也被称为最大边缘化分类器。
1.线性分类器
2.最近邻分类法
3.支持向量机
内容过滤
信息内容过滤的常见应用:
1.Internet搜索结果的过滤
2.用户电子邮件过滤
3.服务器/新闻组过滤
4.浏览器过滤
5.专为未成年人的过滤
6.为客户的过滤
5.5 网络舆情监控与预警
网络舆论检测技术的发展趋势可归为:
1.针对信息源的深入信息采集
2.异构信息的融合分析
3.非结构的结构化表达
互联网一大特征就是高度的异构化和非结构化
功能分解
根据需求和国内外发展现状,建议从网络媒体信息提取、网络媒体内容聚合分析及网络媒体内容综合表达等几个方面进行核心技术攻关。
1.高仿真网络信息深度提取技术
2.基于语义的海量媒体内容特征快熟提取与分类技术
3.非结构信息自组织聚合表达技术
互联网舆情信息监控系统充分应用网络协商与人机对话模拟等先进技术,实现针对系统目标站点发布内容的全面获取。
另一方面,监控系统借助获取内容主题信息提取操作,开放热点数据报告定制功能。
5.6 内容中心网络及安全
内容中心网络架构
内容信息对象。信息对象是指内容本身,是CCN的关注焦点。
命名
路由
缓存,原则:统一性、民主性、普遍存在的
应用程序编程接口
面向内容中心网络的攻击分类
1.命名相关攻击
2.路由相关攻击
3.缓存相关攻击
4.其他攻击