近年来,诸如StackExchange、Quora、Yahoo Answers和知乎等互联网问答社区取得了显著的发展。该类网站允许用户提出问题,并由相关领域具有专业知识的其他用户提供答案。其中一些平台还允许用户通过评估正确性和质量来投票选出好答案。然而,在大多数在线社区中,90%的潜伏用户只消费内容,而不参与内容创作。为此,该类网站已经提出了各种解决方案,以鼓励内容创作。然而,这些方法只有在问答网站上发布答案后才适用。目前,没有任何机制来帮助用户(尤其是那些不擅长提供答案的用户)评估他们的帖子质量,或在答案发布前就估计他们可能获得的票数。因此,帮助不熟练的回答者在发布答案之前就明确其答案质量的评估工具不可或缺。
我校经济与管理学院宋忆宁老师团队最近在计算机科学1区TOP期刊《Decision Support Systems》上发表题为“Improving answer quality using image-text coherence on social Q&A sites”的论文,对上述问题进行了研究。
该研究提出一种预测问答社区答案喜爱度的工具,此工具特别强调将图文连贯性作为答案质量的指标。研究团队采用设计科学研究开发了一个答案顾问(简称AA)来预测其他用户对答案的喜爱程度。这种预测依赖于答案中图像和文本主题分布之间的一致性,并且该预测在答案实际发布在问答网站之前即可做出。为了实现这一点,研究团队首先扩展了经典的文本主题模型,训练了一个深度主题模型,该模型利用在高度喜欢的答案中发现的文本和图像之间的对齐模式,使本研究能够同时推断新答案中的文本主题分布和图像主题分布。研究团队分别对文本和图像的两种分布进行了散度测量,可以计算出新答案的图像-文本语义连贯水平。最后,将图像-文本语义一致性纳入AA中,以预测答案可能获得的赞成票的数量,从而提供对答案质量的评估。在真实数据集上的实验结果表明,图像和文本的连贯性与用户的回答所获得的点赞数量呈正相关。此外,与传统的文本和图像特征相比,在引入所提出的图像-文本语义一致性度量后,AA的预测精度可以提高38.12%,将解释能力从0.14提高到0.47。
在理论意义方面,本研究的结论建议可以通过衡量跨媒体语义连贯特征来完善数据质量理论,同时,还可以通过丰富文本和图片理解的综合模型来阐明认知理论。在现实意义方面,社交问答平台的设计者应该优先引导回答者选择合适的图片,以便获得更高质量的答案。答案质量的提高可以通过更引人入胜的内容提高用户参与度,通过全面的回答提高用户满意度,并在平台社区内形成更大的知识共享文化。
论文链接:https://doi.org/10.1016/j.dss.2024.114191.
(撰稿及一审:宋忆宁,二审:科研部成果管理科,三审:李长平)