随笔- 79  文章- 1  评论- 1  阅读- 1678 

数据类型

属性:数据对象的性质或者特性,又称特征。每个数据对象都可以用一组属性描述。

数值属性的大小比较和其单位有关,其数值大小比较所得的结果可能不是和加上单位后比较一致。属性值加上单位描述才有清晰的意义。

二元属性根据两种状态是否具有同等价值且有相同权重可分为对称或者非对称两种类型。

属性类型

  • 定性
    • 标称,如枚举类型
    • 序数,值可以排序
    • 二元,仅有两个值
  • 定量
    • 区间,有序,值能够进行加或者减操作
    • 比率,可以进行任何数值操作

有序数据:数据对象之间存在时间后者空间上的顺序关系。
分类

  • 时序数据
  • 序列数据,如用户从进入网站到离开网站期间所做的点击操作按照先后顺序构成的点击序列。

数据预处理

数据清理的主要任务:通过填写缺失值、光滑噪声数据、删除离群点和解决属性不一致性问题等对数据进行处理。

处理缺失值

  • 忽略元组:去掉有缺失属性的元组。
  • 数据补齐:用特定值替代缺失属性的值。
    • 人工填写
    • 特殊值填写
    • 平均值填写:数值属性使用平均值填写;倾斜分布情形使用中位数填写;非属性属性使用出现频率的值填写。
    • 使用最可能的值填写:采用基于推断的方法填充空缺值。
  • 不处理

噪声:测量变量中随机错误或者误差。
消除方法:对数值进行平滑处理。
分箱:根据相邻数据确定最终值。实质是将数据分为个数相等的块,每个块就是一个箱,在箱内根据某种方式将箱内的值变换为某一值。

  • 按箱平均值
  • 按箱中值:箱内处于中间位置的值为该箱中的所有值。
  • 按箱边界值

孤立点:某种意义上具有不同于数据集中其他大部分数据对象特征的数据对象。通过聚类检测。

数据集成任务:将互相关联的分布式异构数据源集成到一起,使用户可以以透明的方式访问这些数据源。
相同实体但名称不同问题:使用属性元数据进行数据清理。
属性冗余:一个属性可由其他一个或者多个属性推出,可能是冗余的。

  • 数值属性,计算相关系数估计相关度。

rA,B=i=1n(aiA)(biB)NσAσB

A、B为属性,N为元组数量,ai,bi是第i个元组中属性A,B的值,σ是标准差。rA,B取值[-1,1],绝对值越大则相关性越大,正负表示正相关或者负相关。

  • 离散数据,使用卡方检验。
    数据值冲突:属性值的表示、规格单位、编码不同。

数据规范化包括同趋化处理和无量纲化处理。

  • 最小——最大规范化(离差标准化):x=xminmaxmin(new_maxnew_min)+new_min,0-1规范化则为 x=xminmaxmin
  • z-score规范化(标准差标准化):x=xAσA
  • 按小数定标规范化:x=x10j,将值转换成[0,1]之间的数。

数据约简:尽可能保持原有数据集完整性的前提下,最大限度精简数据量。

  • 属性子集选择:从 m 个属性中选择 n 个属性(m > n)使得特定指标最优。
    • 嵌入:挖掘算法本身包含属性选择任务。
    • 过滤:属性选择独立于挖掘算法。
    • 包装器:在选择属性过程中使用选择的属性训练模型。
  • 主成分分析:无监督线性数据转换,在高维数据中找到最大方差方向,将数据映射到一个维数小得多的新子空间上。
    • 1.数据规范化
    • 2.计算协方差矩阵
    • 3.求协方差矩阵特征值和正交化单位特征向量
    • 4.计算累计贡献率选择主成分
    • 5.主成分按重要性排序
    • 6.选择重要性最高的若干主成分,忽视剩余主成分
  • 离散小波变换:X表示 n 维数据向量,将 X 变换为长度相等的 X,设定阈值,过滤掉小于阈值的小波系数,保留数据主要特征。

离散化:将连续变量划分成不同类别的过程。

  • 无监督,等宽分箱法和等频分箱法。
  • 有监督,ChiMerge,如果相邻区间类分布非常类似,则区间合并,否则分开。

数据相似性

0Sim(X,Y)1表示相似度,Dist(X,Y)0表示距离。
距离度量d(x,y)满足下面准则

  • Dist(x,y)0
  • 当且仅当x=y时,Dist(x,y)=0
  • Dist(x,y)=Dist(y,x)
  • Dist(x,y)Dist(x,z)+Dist(z,y)
    距离形式有
  • 1.曼哈顿距离

Dist([x1,x2,...,xm],[y1,y2,...,ym])=i=1d|xiyi|

  • 2.欧几里得距离

Dist([x1,x2,...,xm],[y1,y2,...,ym])=i=1m(xiyi)2

  • 3.切比雪夫距离

Dist([x1,x2,...,xm],[y1,y2,...,ym])=limp(i=1d|xiyi|p)1p

  • 4.闵可夫斯基距离

Dist([x1,x2,...,xm],[y1,y2,...,ym])=(i=1d|xiyi|p)1p

  • 5.杰卡德距离

sim(A,B)=|AB||AB|=i=1dxiyii=1dxi2i=1dxiyi+i=1dyi2

dJ(A,B)=1sim(A,B)=|AB||AB||AB|

二元属性相似度通过对属性匹配值求和计算

Sim(X,Y)=i=1dS(xi,yi)

不同度量单位属性组合相似度
马氏距离:

Dist(X,Y)=(XY)1(XY)T

1是数据协方差矩阵的逆。马氏距离和测量单位无关,可排除变量相关性干扰。

不同对象XY相似度计算

  • 1.将第 k 个属性标准化到 [0,1],计算相似度 Sk(X,Y)
  • 2.创建指示变量 δk,标识两个对象是否在第 k 个属性上取值为0,若同时为0,则δk=0,否则δk=1
  • 3.计算相似度

Sim(X,Y)=k=1nδkSk(X,Y)k=1nδk

使用权值

Sim(X,Y)=k=1nWkδkSk(X,y)k=1nδk

文档相似度
余弦相似度

cos(X,Y)=XYX∥∥Y=i=1dxiyii=1dxi2i=1dyi2

词频-逆文档频率(TF-IDF)

TFw=XwX

IDF=log2+1

TFIDF=TF×IDF

选出表征文档特性的关键词,然后计算相似度。

离散序列相似性
编辑距离:将某一序列编译成另一序列所需的最少操作次数。操作类型有替换、插入和删除。

Edit(i,j)={Edit(i1,j1)xi=yimin(Edit(i1,j)+wdel,Edit(i,j1)+wins,Edit(i1,j1)+wrep)xiyi

最长公共子序列:一个序列S,如果是两个及以上序列的子序列,且是子序列中最长的,则S称为最长公共子序列。
X=x1,x2,...,xmY=y1,y2,...,yn的最长公共子序列为Z=z1,z2,...,zk,则

  • xm=yn,则zk=xm=yn,且zk1xm1yn1的最长公共子序列。
  • xmynzkxm,则Z是xm1和Y的最长公共子序列。
  • xmynzkyn,则Z是X和yn1的最长公共子序列。

LCSS(i,j)=max{LCSS(i1,j1)+1xi=yjLCSS(i1,j)xi不匹配LCSS(i,j1)yj不匹配

 posted on   x-yun  阅读(121)  评论(0编辑  收藏  举报
编辑推荐:
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
点击右上角即可分享
微信分享提示