Gemini的扩展上下文窗口是否如我们想象的那么有用

谷歌最新的人工智能模型能够接受比任何其他主流解决方案更多的上下文数据，但新的研究对其有效性提出了质疑。据TechCrunch报道，虽然Gemini 1.5 Pro 和 Gemini 1.5 Flash在技术上可以处理大型上下文窗口中的数据，但它可能无法理解这些数据。

一项研究发现，“随着视觉上下文长度的增加，多种 [视觉语言模型] VLM 的性能会迅速下降”，其中包括 Gemini。另一项研究表明，“没有任何开放权重模型的性能优于随机概率。”

“虽然像 Gemini 1.5 Pro 这样的模型在技术上可以处理长语境，但我们已经看到许多案例表明，这些模型实际上并不‘理解’内容，”马萨诸塞大学阿默斯特分校自然语言处理小组的博士后、该研究的共同作者之一 Marzena Karpinska 向 TechCrunch 解释道。

大型语言模型依靠训练数据，无需任何额外材料即可回答某些问题。然而，人工智能模型的一个关键功能是能够处理新数据以处理提示。例如，Gemini 可以使用 PDF、视频或 Android 手机屏幕来获取更多背景信息。所有这些数据，加上其内置数据集，都可用于回答提示。