随着这些模型的日益普及,对其能力和局限性进行评估至关重要。这些评估最终有助于了解 LLM 在哪些情况下最有用或最没用,同时还能确定改进 LLM 的方法。
纽约大学的研究人员朱莉安-周(Juliann Zhou)最近开展了一项研究,目的是评估两个经过训练的 LLMs 的性能,以检测人类的讽刺。她的研究结果发布在预印本服务器 arXiv 上,帮助她界定了可以提高人工智能代理和机器人讽刺检测能力的特征和算法组件。
“周在论文中写道:”在自然语言处理的情感分析领域,正确识别讽刺的能力是理解人们真实观点的必要条件。”由于讽刺的使用通常是基于语境的,以往的研究使用语言表示模型,如支持向量机(SVM)和长短期记忆(LSTM),来识别基于语境信息的讽刺。最近在 NLP 方面的创新为检测讽刺提供了更多可能性”。
情感分析是一个研究领域,它需要分析通常发布在社交媒体平台或其他网站上的文本,以深入了解人们对特定主题或产品的感受。如今,许多公司都在这一领域进行投资,因为这可以帮助他们了解如何改进服务和满足客户需求。
现在有几种 NLP 模型可以处理文本并预测其潜在的情感基调,或者换句话说,预测其表达的是积极、消极还是中性情感。然而,网上发布的许多评论和意见都含有讽刺和挖苦的成分,这可能会诱使模型将它们归类为 “正面”,而实际上它们表达的是负面情绪,反之亦然。
因此,一些计算机科学家一直在努力开发能够检测书面文本中讽刺意味的模型。在这些模型中,有两个最有前途的模型被称为 “CASCADE “和 “RCNN-RoBERTa”,它们是由不同的研究小组在 2018 年提出的。
“在《BERT:用于语言理解的深度双向变换器的预训练》中,Jacob Devlin 等人(2018 年)引入了一种新的语言表征模型,并在解释语境化语言方面展示了更高的精度,”Zhou 写道。”正如 Hazarika 等人(2018)所提出的,CASCADE 是一种语境驱动模型,在检测讽刺语言方面产生了良好的效果。本研究使用这两种最先进的模型分析了 Reddit 语料库,并对照基线模型评估了它们的性能,以找到理想的讽刺检测方法。”
从本质上讲,Zhou 进行了一系列测试,旨在评估 CASCADE 和 RCNN-RoBERTa 模型检测 Reddit 上发布的评论中讽刺意味的能力,Reddit 是著名的在线平台,通常用于评价内容和讨论各种话题。我们还将这两个模型检测样本文本中讽刺意味的能力与人类在同一任务中的平均表现(在以前的工作中报告过)以及一些分析文本的基线模型的表现进行了比较。
“周在论文中总结道:”我们发现,与更传统的 CNN 方法相比,用户个性嵌入等上下文信息以及转换器 RoBERTa 的加入可以显著提高性能。”我们的研究结果表明,基于上下文和转换器的方法都取得了成功,因此在转换器中加入额外的上下文信息特征可能是未来实验的一个方向。
这项最新研究中收集到的结果可能很快会指导这一领域的进一步研究,最终有助于开发出更能检测人类语言中讽刺和挖苦的 LLM。这些模型最终可能会被证明是非常有价值的工具,可以快速对在线评论、帖子和其他用户生成的内容进行情感分析。
论文更多信息:Juliann Zhou, An Evaluation of State-of-the-Art Large Language Models for Sarcasm Detection, arXiv (2023).
论文原链接:https://arxiv.org/abs/2312.03706
AI解读论文链接(可支持中文对话):https://arxiw.org/abs/2312.03706
论文原文:2312.03706.pdf
原创文章,作者:Xaiat,如若转载,请注明出处:https://www.xaiat.com/%e5%a4%a7%e5%9e%8b%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e8%83%bd%e6%a3%80%e6%b5%8b%e5%87%ba%e8%ae%bd%e5%88%ba%e5%90%97%ef%bc%9f/