概述
论文地址:https://arxiv.org/abs/2403.01055
大规模语言模型可以生成媲美专业作家撰写的文本。目前使用的对话技术主要有两种:一种是交互式(如 OpenAI 的 ChatGPT 和 Google 的 Gemini),另一种是预测性文本补全(如 GitHub Copilot)。这些技术在许多任务中表现出色。然而,另一方面,在写作中,它们将部分或全部的创造性决策留给了系统。
例如,OpenAI 的 ChatGPT 允许用户根据目的指定所需的输出,如 “我希望你写一个简短的便条来介绍自己”,但这样的系统会削弱用户的创造力和原创性,影响他们自己的想法和表达据说是可能的。
Textfocals 是一个用户界面原型,其设计原则是:用户生成内容,大规模语言模型通过以下方式修改用户的写作内容Textfocals 是一个用户界面原型,其设计原则是:用户生成内容,大规模语言模型通过以下方式修改用户的写作:"限制用户修改其写作。相反,通过大规模语言模型生成的摘要、问题和写作建议(以下简称大规模语言模型视图),用户可以获得改进和完善建议,并鼓励他们考虑修改。
Textfocals 提供了两个考虑到可用性的用户界面功能:一个是通过将视图调整到作者当前修改的位置来简化修改过程。另一个是提供选择或修改预先设计的提示的功能,因为作者很难创建合适的提示,这样就能更方便地使用大规模语言模型的功能,以满足当前的修订需求。
以往的研究已经对用户界面进行了调查,这些用户界面在文本编辑器的交互式侧边栏中显示由大规模语言模型生成的摘要,或者支持基于模板的提示工程,以改进用户定义的反馈。然而,Textfocals是首个研究用户界面功能的原型,旨在鼓励用户主动进行修改�
一项由四名参与者参与的形成性评估对大规模语言模型摘要、问题和建议视图在支持写作修改方面的有效性进行了定性评估。结果表明,大规模语言模型视图有助于用户完善所考虑的观点,提高写作效率。
这项研究在展示大规模语言模型如何支持写作的创造性和原创性方面迈出了重要一步。
设计和实施
在写作中,回顾自己的写作并发现新事物至关重要。然而,虽然具有大规模语言模型的写作工具,如 OpenAI 的 ChatGPT 或谷歌的 Gemini,可以生成与专业作家不相上下的句子,但对于用户来说,要想出正确的问题(提示工程)可能会很困难,而且负担很重。此外,在将生成的回复纳入文本时,有必要确保版权和原创性。
Textfocals 提供两种功能来解决这些问题。
- 可定制的预编程提示菜单:让大型语言模型 "观察 "而不是生成文本的提示
- 卡片式侧边栏:允许用户与大规模语言模型的响应(视图)进行交互的界面
下图显示了 Textfocals 的总体交互流程。Textfocals原型是作为 Microsoft Word 的任务窗格插件开发的。使用 React 和 Microsoft JavaScript API,文档它可以检索段落文本,并通过提示将其发送到后端(Python FastAPI 服务器)。后端查询 OpenAI API GPT-3.5,并将输出流传输到前端,前端对其进行解析(例如 Markdown 渲染)并显示生成的视图。
下图是Textfocals原型的用户界面图片;Textfocals 有一个按钮用于选择预定义的提示,该提示要求用户从大规模语言模型中观察文本。提示按钮提供了一个功能简介和一个提示编辑器,用户可以在这里查看和编辑内容。这种方法旨在鼓励用户修改提示内容,协助写作过程。
有用的视图类别包括
- 概要视图
- 论点陈述:"写一句似乎是本段论点的话,然后简要重复。
- 重要概念:"列出段落的重要概念,并以 Markdown 格式显示三个最相关的概念。
- 问题查看
- 作者试图回答的问题:"列出作者在本段中试图回答的问题。
- 读者可能提出的问题:“作为读者,你要向作者提出有关定义和逻辑联系的问题”。
- 建议意见
- 建议:"就如何改进该段提供列表式建议。
此外,还实现了一个可滚动的侧边栏,以便与生成的视图进行交互。这是用户写作与大型语言模型视图之间的中间界面。对话过程开始时,大型语言模型中会填充第一段内容和 "论文陈述 "提示。随后,当选择特定文本部分时,包含该部分的段落将作为输入传递给大规模语言模型。大规模语言模型还会生成前后段落的视图,允许用户在附近段落的上下文中浏览视图并与之交互。此外,将鼠标悬停在卡片上还能突出显示相关段落,方便用户浏览文档。通过这种方式,Textfocals 为用户提供了审查和改进自己写作的工具。
研究成果–大规模语言模型视图如何帮助作者
目前正在对四名大学教职员工和教授进行全面形式评估,以了解大规模语言模型的生成视图如何影响用户的写作。每位参与者都在撰写通讯、拨款申请、议论文或博客文章,并带来了自己的写作草稿(约一页)。参与者在与 Textfocals 和聊天机器人界面互动的同时口述自己的想法。
Textfocals 包括对每个段落的 "论点陈述 "和 "重要概念 "进行总结的提示,这不仅有助于重新组织文档,还有助于识别新的观点。例如,当一位参与者(P4)要求为一个短小的段落列出重要概念时,系统识别出了"标记创作者 "这一概念,并将其作为一个有待进一步发展的想法突出显示出来。由此可见,摘要视图有助于用户深入研究某些领域。
摘要观点还有助于比较读者是如何理解文章的,并找出与预期信息的差异。学员将摘要视图视为外部读者所写,了解读者是如何理解文章的。例如,一位学员(P4)评论说,“这种观点有助于我理解读者是如何理解这篇写作的”。由此可见,摘要视图有助于修改所要传达的信息,使其表达清晰。
Textfocals 还包括一个问题视图,对学员的写作提出拟人化的问题,这也有助于学员从读者的角度审视自己的写作。例如,其中一位参与者(P3)表示,如果她当前的写作没有充分回答提问视图中的问题,她会对其进行修改。由此可见,提问式观点也有助于使用者写出适合读者的文章。
此外,虽然与会者普遍认为关于表面和实质改进的建议意见很有用,但许多人要求看 到如何具体实施这些改进的例子。例如,一位学员(P4)在阅读了关于 "重新组织段落,使其逻辑流畅 "的建议意见后说,这让他开始思考 "我怎样才能更有逻辑性?'"这种对真实例子的要求有时会引发意想不到的对话。另外,例如,一位学员(P2)向 Textfocals 询问 "如何打散段落使其更具可读性 "的具体建议。
因此,要修改系统的清晰度和其他建议,就需要在系统响应中加入具体的例子。互动界面是提供这些具体例子的一种自然方式。例如,一位参与者(P3)试图通过将人工智能视图中的文本多次复制并粘贴到聊天机器人界面中来获取具体例子。
这项研究的初步结果表明,大规模语言模型的生成视图有助于发现写作中发展不足的想法,根据读者的需要调整写作,并做出明确而具体的改进。在保持思想和构思的同时改进写作的潜在有效工具。
研究结果–设计问题和有待改进之处
在系统如何呈现视图和允许用户互动方面,确定了一些设计挑战和需要改进的地方。
如果系统提供的反馈意见需要占用大量空间,并且适用于用户文档的不同部分,那么设计者就需要考虑如何将反馈意见与文档之间的关系可视化,以及反馈意见应该显示在哪些区域。在研究中,参与者要求查看文档的不同部分,但并不是所有的反馈都同时显示在屏幕上。
原型突出显示了文件中与每个视图相关的部分,并将其可视化,但我们发现,参与者往往难以理解,因为突出显示的部分与视图没有直接联系,而在其他情况下,突出显示的部分往往显示出相关性。
例如,P1 将悬停在文本上时的黄色高亮错误地理解为表示出错,并评论说他不知道这表示的是好还是坏。同样,P3 将黄色高亮显示的卡片误解为最相关的视图,并评论说 “我认为标为黄色的是相关性最高的”。其他与会者也认为这一功能令人困惑和不直观。因此,在标明侧边栏与文件的哪一部分相关时,最好使用不带颜色、不表示任何附加含义的微妙轮廓。
我们还发现,在使用侧边栏时,一些参与者认为作为大规模语言模型输入(范围)的文本范围不明确。例如,P1 说她不知道原型是在查看整个文档,还是只查看选定的部分。同样,P2 也说原型是在看整个文档还是只看选定的段落。这表明,清晰显示大规模语言模型用于生成视图的文本范围的视觉提示将是有用的。
此外,与会者还使用了各种预定义的提示来表达他们的观点,这表明各种提示都很有用。一些与会者根据自己的需要编辑了预设提示或创建了新的提示。例如,一位与会者编辑了 "读者可能会有的问题 "提示,以指定读者类型;另一位与会者重新使用了视图功能,并要求大语言模型改进文本。然而,创建和管理提示对用户来说很困难,虽然像 FeedbackBuffet 这样的填空方法可以解决部分难题,但用户还需要支持来创建新的提示并在以后调用它们。这是一个需要进一步研究的领域。
总结
本文提出的 Textfocals 是一种以人为本的大规模语言模型利用系统,用于支持写作。修改是对所写内容进行批判性审查和评估的过程。这有助于发现需要改进的地方和新的发展机会,并做出适当的修改。通过使用预先生成的提示和大规模语言模型生成的输出,用户可以客观地审查自己的写作,并有新的发现。用户测试表明,参与者认为以这种方式生成的输出结果非常有用。他们还能发现预期信息与读者理解之间的差距,并深入了解如何调整文本以适应读者。这些结果表明有助于改进写作和丰富内容。
它还表明,预定义的提示和提示编辑器能有效地鼓励用户产生外部观点,而不是取代或继续自己的句子。这种用户界面的独创性使用户能够使用大型语言模型来增强自己的思维过程,而不是让大型语言模型取代自己的思维。事实证明,这既能让用户修改自己的文章,又能保持他们作为作者的自主性。
事实证明,本文提出的 "文本聚焦 "是一个有用的工具,用户可以利用它来回顾自己的写作,并有新的发现来丰富写作内容。希望进一步的研究能进一步阐明这一工具的有效性。