概述
近年来,博客作为一种基本出版平台在网络上非常流行。对它们进行了一些研究,博客观点检索是关键问题之一。在本文中,我们研究数据融合是否可以提高博客观点检索的有效性。对2008年 TREC 博客意见检索任务中提交的结果进行了大量的实验,并研究了几种数据融合方法,包括COMBSUM、COMBMNZ、Borda计数和线性组合方法。我们观察到,一般来说,与最好的组件检索系统相比,所涉及的所有数据融合方法都具有很强的竞争力。特别是,经过适当训练的线性组合方法优于其他数据融合方法,能够以明显的优势击败最好的成分检索系统。该研究表明,如果采用适当的融合方法,数据融合可以成为一种有效的博客观点检索技术。
关键词:博客系统;观点检索;数据融合;线性组合
简介
文章首先对博客的发展与词条搜索进行介绍与展望,并以此引出观点检索对于博客的关键之处。
该文章发布于2012年,那时博客系统趋近于成熟阶段,根据博客环境现如今大概可将其分为三类:
- 博客的最初定义便是由个人所有的知识分享地,时至今日依旧有大量用户开发并长期维护自己的个人博客。
- 博客的存在既可以像大家介绍自己,也可以作为公司或者团体的介绍而存在。
- 随着信息时代的到来,交流必不可少,便捷的交流在博客开发中逐渐变得重要起来,一些博客系统(如微博)逐渐增加交流在开发中的比重,甚至弱化博文内容(限制字数)而侧重于观点交流探讨。
“酒香也怕巷子深”,优质的博文也需要有人阅读与分享,即便是传统的博客依旧存在“友链”来推广。高效便捷的观点检索便显得尤为重要。
从某种意义上说,博客观点检索系统比传统的信息检索系统更复杂,许多不同种类的技术可以在任何单独的博客观点检索系统中一起使用。
相关工作
在本节中,我们回顾了博客搜索,特别是博客观点搜索的一些前期工作,以及信息检索环境中的一些主要数据融合方法。
对于博客系统来说,观点发现是一项有意义的工作。通常情况下,观点检索系统是建立在传统信息检索系统的基础上的,该信息检索系统检索具有给定查询的分数的相关文档的列表,但不关心它们是否是有意见的。然后使用一个观点发现子系统对所有检索到的文档进行评分。最后,使用在第一和第二阶段获得的分数的组合对所有检索到的文档进行重新排序。
数据融合技术已经应用于许多领域,如目标检测和跟踪,多重感知,图像融合,语音处理等。
数据融合在信息检索中的应用已有一段时间的研究。多种数据融合方法,如 CombSum ,CombMNZ ,Borda 计数,Condercet 融合,多准则方法 ,线性组合方法,已经被研究。
数据融合方法可以分为两种类型: 基于得分的方法和基于等级的方法。CombSum、 CombMNZ、 Borda 计数和线性组合方法是基于得分的方法,Condercet 融合是基于秩(等级)的方法。为了应用基于分数的方法,每个组件系统都需要为所有检索到的文档提供分数。对于基于等级的方法,只需要一个排名的文档列表作为组件结果。本文主要研究基于得分的方法。
在这里作者讨论了CombSum,CombMNZ ,线性组合方法的计算方法,以及对于查询结果的分值列表计算方式。
实验
数据融合方法:
在本研究中,我们使用 CombSum、 Comb-MNZ 以及简单性能水平加权(LCP)、性能平方加权(LCP2)和多元回归(LCR)确定的权重的线性组合方法进行了实验。使用的分数归一化方法包括 Borda,拟合线性分数归一化方法和二元逻辑模型。我们认为,这种多样化的数据融合方法和评分标准化方法的结合,有助于我们更好地观察现有技术的成就。
选定数据集合实验设置:
在 trec2008博客跟踪中,使用了“ Blog06”测试集。话题定位为通过CarMax查找出售汽车、购买汽车或两者兼有的人的意见。
实验中采用了三种评分归一化方法: Borda 法、拟合线性评分归一化方法和二元 logit 回归模型。所涉及的数据融合方法有: CombSum 法、 CombMNZ 法、性能水平加权线性组合法、性能平方加权法和多元线性回归加权法。测试了不同评分归一化方法和数据融合方法的所有组合。
我们将所有150个主题分成三个大小相同的组。话题851,854,..,950,1003,..,1048在第一组,话题852,855,..948,1001,..,1049在第一组,其余的都在第三组。一组(1,2,3)作为训练数据确定线性组合方法的权重,另外两组(2和3,1和3,1和2)作为测试数据。
实验结果
四个指标用于检索评估。它们是: 所有相关文件的平均精度(AP)、召回级精度(RP)、10文档级的精度(P@10)和倒数等级(RR)。
针对实验结果对融合方式进行评估,以表格与折线图的方式展现几种方法的最优结果。
值得注意的是,对于 CombSum,Comb-MNZ 和线性组合方法的条件是不相同的;因为线性组合方法需要训练才能确定所有组件系统的权重,但不需要训练CombSum和CombMNZ。事实上,可以被认为是特殊的 CombSum,有一些关于组件系统的信息(估计性能)可用。由于所有组件系统的性能都可以估计,因此我们将每个组件系统的得分归一化到与其估计性能相关的不同范围内,然后使用与CombSum相同的融合方法来计算所有相关文档的得分。
综上所述,本研究的一个主要观察结果是:在大多数情况下,用于分数标准化的二元逻辑回归和用于权重分配的多元线性回归的组合是最有效的方法,特别是当相对大量的组件系统被融合时。平均而言,与最佳组分系统相比,MAP的改进率为12.49%,RP为9.73%,P@10为5.37%,MRR为5.12%。
除上述外,我们还有以下几点观察:
(1)COMBSUM和COMBMNZ总是很接近。大多数时候,Combsum比Combmnz好一点。有时差别很大,有时则不然。
(2)除了极少数例外,LCP2总是比LCP好一点。它们之间的差异往往很大。
(3)当融合相对较少数量(例如,5或10个)的组件系统时,所有数据融合方法的性能都明显优于最佳组件系统。
(4)对于用于检索评估的四个指标,AP和RP之间以及P@10和RR之间的相关性比其他组合更强。
(5)所有的数据融合方法在用 AP 或 RP 测量结果时比用 p@10或 RR 测量结果更能有效地改善最佳分量结果。
(6)对于COMBSUM、COMBMNZ、LCP和LCP2,Borda是分数归一化的最佳选择;对于LCR,Logistic回归是分数归一化的最佳方法。
(7)CombSum很难通过去除一些最差的分量结果来获得更好的融合结果。
讨论和进一步分析
作者对结果进行分析,得到一个之前没有观察到的结果: 组件系统的数量对 CombSum 和 CombMNZ 有显着差异。尽管CombSum和CombMNZ的性能随着组件系统数量的增加而增加,但其速度比最好的组件系统慢。
结论
在本文中,我们提出了一项关于数据融合的工作,以提高博客观点检索的有效性。对一个大型数据集进行了广泛的实验,该数据集包括TREC 2008中提交给博客意见任务的所有191次运行,结果表明,平均而言,所涉及的所有数据融合方法至少与最好的组件系统一样好。特别地,结合使用二元逻辑模型(用于分数标准化)和具有权重的线性组合方法。
通过多元线性回归训练(用于融合)可以达到最好的效果。该研究表明,数据融合可以为我们开发有效的博客检索系统提供一种很好的方法。