科技信息监测服务平台

您当前的位置：首页 > [2024年第7期]情报条目详细信息

编译内容

编译服务：

编译时间：

2024-5-7

浏览量：

斯坦福大学及加州大学圣芭芭拉分校的研究人员发表了一项研究，主题是关于ChatGPT对学术会议同行评审的影响。

研究人员提出一种方法，用于估算大型语料库中可能被大语言模型（LLM）大幅修改或生成的文本比例。将历史语料库中的提示输入LLM（或LLMs），生成相应的人工智能生成文本语料库；利用专家撰写的和人工智能生成的文本，估计混合语料库中人工智能生成的文本与专家文本的分布；这些估计的文档分布被用来计算目标语料库的可能性，并通过最大化可能性得出α的估计值。α值指在所有内容中疑似由AI生成或“显著修改”的内容所占的比例。

研究人员选择自然语言处理领域比较有影响的4个国际顶会（ICLR、NeurIPS、CoRL和EMNLP）的论文进行方法评估。将这种方法应用于ChatGPT发布后会议论文的同行评审的案例研究：ICLR 2024、NeurIPS 2023、CoRL 2023和EMNLP 2023。研究结果如下：

●ICLR 2024: α估值为10.6%

●NeurIPS 2023: α估值为9.1%

●CoRL 2023: α估值为6.5%

●EMNLP 2023: α估值为16.9%，超过1/6

而在ChatGPT问世之前，α值的水平大约是在2%，作为对照的Nature系列期刊评审意见的α值则未发生显著变化。

研究人员认为：首先，审稿人更有可能在审稿的最后期限提交机器生成式文本，而且提交生成式文本的审稿人比提交人工撰写意见的审稿人提供的作者回复更少。其次，与人工撰写意见相比，生成式文本中包含的具体反馈或对其他研究的引用较少。第三，包含生成式文本的语料库减少了语言的变化和认识的多样性。还应该注意到，在同行评议中，ChatGPT存在的其他社会问题超出了该研究的范围，包括向私有的语言模型提供未发表作品的潜在隐私和匿名风险。

该研究主要使用GPT-4生成文本，因为GPT-4是长文本内容生成中使用最广泛的LLM之一，但使用GPT-3.5等其他LLM的结果也很稳健。

建议未来的从业人员选择与生成目标语料库的语言模型最接近的LLM，以反映语料库创建时的实际使用情况。研究人员强调，并不想做出价值判断，也不想声称在审稿中使用人工智能工具一定是坏事或好事。该研究并不构成审稿人使用ChatGPT从头开始撰写审稿意见的直接证据。审稿人可能会勾勒出与论文相关的几个要点，然后使用ChatGPT将这些要点组织成段落。在这种情况下，估计的α值可能会很高；事实上，研究结果与这种使用LLM对评审意见进行实质性修改和充实的模式是一致的。为了保证透明度和问责制，估计最终文本中有多少比例可能是由人工智能生成的非常重要。

这项工作提供了一种研究大规模使用LLM的方法，展示了LLM的使用对科学出版的潜在影响。虽然该研究存在一些局限，但对于科学界使用LLM的情况进行透明的分析仍然有其价值。研究人员希望这种统计分析能够激发进一步的社会分析、有效的学术社区的群体反思，并就信息生态系统中使用LLM的程度和影响做出明智的决策。

................................................................................................................................................................................................

原文标题：Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews

时间：2024年3月11日

原文链接：https://arxiv.org/abs/2403.07183

编译：华宁

原文题目： ChatGPT对人工智能会议同行评审影响的案例研究

原文来源：

提供服务: 导出本资源

编译内容

cutObjectTopic('ChatGPT对人工智能会议同行评审影响的案例研究')