现象:因特网资源呈现多语言化和跨语言的特点,给普通用户获取非母语网络信息造成障碍。

 

目标:整合多语言倾向信息,以通用的数据形式让用户了解多语言数据对某个对象的评价。

 

针对跨语言情感倾向分类任务,提出两种跨语言情感倾向分析策略:

  1. 半监督框架的跨言情感倾向判别方法(双语协同文本情感倾向判别框架)

关键:跨语言一致文本

 

材料:源语言数据集和目标语言数据集

 

目标:利用源语言数据集的情感倾向标签,预测目标语言数据集中未标注样本点的情感倾向标签,即学习跨语言函数。

 

方法:将情感倾向一致样本点作为载体,采用半监督学习方法在源语言和目标语言候选特征的并集中,建立情感倾向一致的表示空间。

 

具体步骤:

(1)源语言和自动翻译后的目标语言分别采用Fisher特征选择判别模型得到高度置信样本。

(2)选择高度置信样本点(源语言和目标语言共享的情感倾向观点词,同时包含部分目标语言常使用而源语言较少使用的情感倾向观点词)。

(3)将高度置信样本点(目标语言上的情感倾向观点词)逐步加入训练数据集中。

(4)将源语言和目标语言的训练数据集通过Fisher特征选择判别模型得出两种语言的判别结果。

(5)融合两种语言判别结果时,需要平衡目标语言和源语言判别结果的置信度。采用置信度加权叠加方式计算双语融合置信度L(x)(若L(x))=0。则x为正面情感倾向,反之为负面情感倾向)

 

2.跨语言特征混合文本情感倾向判别框架

关键:跨语言混合概念空间

 

材料:带有情感倾向标注的源语言训练数据集、未标注目标语言数据集

 

目标:用跨语言情感倾向特征混合压缩的思想,提取跨语言情感倾向特征。

 

方法:将数据集映射到概念空间中,从而叠加原始特征信息,解决共享特征和样本点稀少的问题

 

具体步骤:

(1)源语言和目标语言进行数据处理后,得到一致语言训练数据。

(2)主成分分析(PCA):训练数据经过PCA跨语言特征混合后,选择一定数量的主成分作为混合特征空间,其维度远小于输入原始维度。 (减小了数据在高维空间中的稀疏性)。

(3)在混合正交表示空间后,得到混合空间训练数据和混合空间目标数据。

(4)源语的混合空间训练数据运用三种机器学习后,得到判别模型。

(5)用判别模型对混合空间目标数据进行倾向判别,得出最后的判别结果。

 

3.融合两种框架判别结果,给出文本整体情感倾向性(跨语言文本情感倾向判别有效)

具体步骤:

(1)数据预处理:语言翻译、去停用词、词语校准(对齐误拼单词)

(2)分别采用两种跨语言倾向判别框架,得到特征混合策略结果(result1、result2)

(3)通过样本整体置信度计算公式,将两种策略最终判别结果融合。

 

4.结论与展望

(1)今后应从跨语言情感倾向概念空间结构以及多种语言到情感倾向概念空间的变换结构继续深入开展研究。

(2)对于多策略方法融合而言,有效的融合集成需要基分类器具有有效性和鸡分类器之间必要的差异性。