20212319刘宇佳

 

2021-2022-1学期 20212319刘宇佳《网络空间安全专业导论》第十二周学习总结

内容安全基础

信息内容安全是研究利用计算机从包含海量信息并且迅速变化的网络中对待特定安全主题相关信息进行自动获取、识别和分析的技术。

信息内容安全挑战

  • 内容获取
    • 动态网络社区信息的深入提取
    • 跨网络媒体内容的高性能提取
    • 混合网络身份内容获取
  • 内容分析
    • 多元网络媒体信息的数据清洗
    • 海量非结构化信息的数据仓储与数据挖掘
    • 多媒体群体理解技术
  • 内容网络
    • 内容中心网络命名攻击
    • 内容中心网络缓存污染
    • 内容中心网络路由攻击

网络信息内容获取

传统网络媒体信息获取从预先设定的、包含一定数量URL的初始网络地址集合出发,先获取初始集合中网络地址的发布内容,进行对比判重;同时提取发布内容中的超链接,以队列的方式逐一提取查重。

理想的模式由初始URL集合(信息种子集合),等待获取的URL队列,信息获取模块,信息解析模块,信息判重模块,网络媒体信息库组成。

早期传统网络媒体信息获取方法可以归于采用网络交互过程编程重构机制实现网络媒体信息的获取,存在技术局限性

基于浏览器模拟实现网络媒体发布信息获取,利用典型的JSSh客户端向内嵌JSSh服务器的网络浏览器发送JavaScript指令,指示网络浏览器开展网页表单自动填写,网页按钮/链接点击,网络身份认证交互、网页发布信息浏览、音视频信息点播。JSSh客户端要求网络浏览器导出网页文本内容,存储网页图像信息,或在用于信息获取的计算机上对于正在播放的音视频信息进行屏幕录像,最终面向各种类型的网络内容、各种形态的网络媒体实现发布信息获取。

网络爬虫是在互联网上实施信息内容获取的主要工具,按照一定规则自动抓取互联网信息的程序或脚本。

网络爬虫分为两大类,一类服务于搜索引擎等搜索类应用,规则尽可能覆盖更多的互联网网站,深度要求低;另一类服务于针对性信息收集的应用,具备高搜索深度和一定的主题选择能力。高深度:追溯爬虫。主题选择:主题爬虫。网络爬虫通常采用分布式机制来保证信息获取的全面性和实效性,采用多进程或多线程,甚至分布式方式,同时下载多个网络资源。

信息内容特征抽取与选择

文本信息:采用向量空间模型来描述文本向量,通过特征选择来降维。文本特征选择对文本内容进行过滤和分类、聚类处理、自动摘要以及用户兴趣模式发现、知识发现有作用。

特征选取方式(按特征评估函数计算各个特征的评分值,选取若干个评分值最高的进行排序)

  • 映射或变换的方法将原始特征变换为较少的新特征
  • 从原始特征中挑选出最具代表性的
  • 根据专家的知识挑选最有影响的特征
  • 用数学的方法进行选取,找出最具分类信息的特征。

当单纯的特征选择无法满足信息表示的要求时,需要进行特征重构,特征重构以特征项集合为输入,利用对特征项的组合或转换生成新的特征集合作为输出

音频信息内容:分析和提取其物理特征(频谱)、听觉特征(响度、音色)、语义特征(语音关键词,音乐的旋律节奏)。国内主要分为语音检索、音乐内容检索和音乐例子检索。先建立数据库,对音频数据进行特征提取,并通过特征对数据聚类。检索引擎对特征向量与聚类参数集匹配,按照相关性排序后通过查询接口返回给用户。音频特征抽取指提取音频的时域和频域特征。所选取的特征应反映物理和听觉特征,对环境的改变具有较好的鲁棒性。

基于帧的音频特征:

  • MFCC:基于Mel频率的倒谱系数
  • 频域能量:通过阈值判断静音帧
  • 子带能量比:非均匀划分,比较能量在各子带上的分布
  • 过零率:信号频率的简单度量
  • 基音频率:周期或准周期音频中,声音主要由基音频率及谐波组成,反映音调的高低。

基于片段的音频特征

  • 静音帧率:静音帧数与总帧数的比例。
  • 高过零率帧率:语音>音乐
  • 低能量帧率:低于某一阈值
  • 谱通量:片段中相邻帧之间谱变化的平均值
  • 和谐度:常用片段中基音频率不等于零的帧数所占的比例来衡量

图像信息

  1. 图像颜色特征提取:颜色直方图(反映颜色级与出现该颜色概率之间的关系)、颜色聚合矢量(区分颜色分布类似而空间分布不同的图像)、颜色矩(统计学低阶矩的概念,描述图像的颜色变化情况)。
  2. 图像纹理特征提取:灰度共生矩阵(描述纹理特征,反映了图像灰度分布关于方向、局部邻域和变化幅度的综合信息)、Gabor小波特征(通过小波对原图进行滤波处理)、Tamura纹理特征(粗糙度、对比度、方向性、线相似性、规则性和粗略度)
  3. 其他图像特征:边缘特征和轮廓特征。

信息内容分析与处理

分类算法的主要功能是:通过分析不同图像类别的图像特征之间存在的差异,将其按内容分成若干类别。学习分为监督学习(有训练集)和无监督学习两种。

线性分类器

通过训练集构建线性判断函数,根据函数的输出确定数据类型。

最近邻分类法

用于图像分类和识别领域,分类结果取决于测试样本与各类训练样本点之间的距离,不需要复杂的学习优化过程,但分类过程中需要计算与所有训练样本的距离。

支持向量机

监督学习的方法,应用于统计分类&回归分析,属于一般化线性分类器。

信息内容过滤

从动态的信息流中将满足用户兴趣的信息挑选出来(相对静态),是移除数据而不是找到数据。

用户兴趣过滤vs安全过滤

常见应用

  • Internet搜索结果过滤
  • 用户电子邮件过滤
  • 服务器/新闻组过滤
  • 浏览器过滤
  • 未成年人过滤
  • 客户过滤

网络舆情内容监测与预警

技术发展趋势

  • 针对信息源的深入信息采集
  • 异构信息的融合分析
  • 非结构信息的结构化表达

网络舆情系统的功能分解

  • 高仿真网络信息深度提取技术:研究和模拟人机交互技术,智能化高效率的远程网络互动式动态信息的全面提取。
  • 基于语义的海量媒体内容特征快速提取与分类技术
  • 非结构信息自组织聚合表达技术

内容中心网络安全

基本原理:摒弃以ip地址为中心的传输架构,采用以内容名称为中心的传输架构。

内容信息对象:信息对象指内容本身。

命名:内容的命名是信息对象的标识,具有全局性和唯一性。有分层命名和扁平命名两种方案。分层命名以发布者的前缀为根。扁平命名为自我认证命名。命名方式可以验证对象的名称-数据完整性。

路由:基于名称的路由,最长前缀匹配原则。

缓存:统一的,应用于任何协议提供的所有内容;民主的,任何提供者发布的;普遍存在的,用于所有网络节点。每个CCN节点维护缓存表,用于缓存路由器接受的内容信息对象

应用程序编程接口:根据请求和交付内容信息对象定义的。

面向内容中心网络的攻击

  • 命名相关
    • 监视列表
    • 嗅探攻击
    • 以上两种主要区别在于是否有预定义列表
  • 路由相关
    • 分布式拒绝服务(兴趣泛洪攻击)
      • 资源耗尽
      • 时间攻击
    • 欺骗攻击
      • 阻塞攻击
      • 劫持攻击
      • 拦截攻击
  • 缓存相关(通过更改内容流行度来破坏缓存)
  • 其他攻击
    • 获取首先访问内容
    • 破坏签名者密钥并充当合法发布者
    • 尝试修改删除或重播内容

posted on 2021-12-24 18:07  20212319刘宇佳  阅读(91)  评论(0编辑  收藏  举报

导航