有机的 LLM 人机交互: 不只是对话框

对话框:有状态的深度交互

首先当然是对话框。对话框是最常见的 LLM 交互形式,从 ChatGPT 开始就广为人知。其场景包括但不仅限于回答问题、信息检索、对话交流、文字游戏等等。它的输入和输出都是文本或富文本。

对话框的核心优势在于其有状态性——能够记住对话历史,支持多轮深入交互。用户可以持续探讨同一话题,逐步完成复杂任务。然而这种形式也有其局限性:用户需要明确表达自己的需求,而开放性的交互界面有时反而让人不知从何开始。

搜索框:聚焦明确的查询需求

相比对话框的开放性,搜索框更加简洁明确,主要聚焦于两种不同的使用场景:问答和检索。

在问答场景中,用户输入明确的问题,通常以疑问词开头,如"今年 PyCon China 是什么时候?"或"Python 的依赖 lock 机制如何运作?"。而在信息检索场景中,用户则输入关键词或短语进行索引查找,如"PyCon China 2025"、"PEP 751"等,期望找到具体的网页或资源。

与对话框的有状态性形成对比,搜索框采用无状态的交互模式。每次查询都是独立的,使用简单高效。不过,当用户需要基于搜索结果继续深入追问时,这种交互往往会自然演进为对话框形式。

集成 LLM 的应用:无缝融入工作流程

从前面两种直接的人机交互形式,我们转向另一类应用——LLM 不再作为独立的交互界面,而是嵌入为软件功能的一部分。

泛 Copilot:重塑专业创作流程

当我们将 LLM 集成到专业创作软件中,让用户在创作过程中无缝调用 LLM 进行辅助工作时,便形成了我所称的"泛 Copilot"交互模式。

这类交互的突出特点是,它几乎没有改变用户的既有工作流程,而是巧妙地将其中某些步骤替换为 LLM 调用。比如,代码编辑器中基于 LSP 的代码补全升级为基于 LLM 的智能补全;文本编辑器提供基于 LLM 的语法检查和文本润色功能。

这种模式真正实现了 LLM 与用户内容生产流程的深度融合,让 AI 能力成为创作工具的自然延伸。

文本处理应用:从"不可用"到"很好用"的跨越

另一个值得关注的领域是文本处理应用。在 LLM 的加持下,许多此类应用在功能性上获得了质的提升,实现了从"不可用"到"很好用"的关键跨越。

翻译软件是这一变化的典型代表。集成 LLM 后,翻译软件不再局限于处理小段文本的辅助角色,而是成为更值得信赖的专业工具,能够胜任全篇文章甚至整本书籍的翻译工作。更令人惊喜的是,在编程、法律、医学、金融等专业领域的翻译任务中,LLM 不仅表现出色,其准确性甚至可能超越人类专家。

语言学习软件同样经历了显著变化。对话练习、口语对练、作文批改等传统语言学习任务,在基于 LLM 的软件中都得到了很好的实现。

此外,邮件分类总结、RSS 信息订阅和整理等过去相对繁琐的功能,在 LLM 的支持下也变得触手可及。

原生 LLM 应用:完全依赖 AI 能力的新形态

所谓"原生",指的是完全依赖于 LLM 产出文本、序列或数据能力而构建的应用。

Agent:从简单指令到复杂任务

Agent 无疑是今年最火热的概念之一。在我看来,它所指的是一个具有通用性的全能助理程序:用户只需输入简单的指令,它就能根据指令完成复杂的任务。根据任务类型的不同,Agent 可以分为两大类:产出内容的 agent 和执行任务的 agent。

产出内容的 agent 中,最典型的例子包括 deep research 和 coding agent。Deep research 虽然仍聚焦于文字任务,但通过多次迭代能够产出综合性报告,有时甚至可以排版成 HTML 格式以提升可读性。Coding agent 则专注于代码产出,尽管用户给出的指令简单,但它能自主探索庞大的代码库,并提供符合用户需求的精准修改。

执行任务的 agent 则有所不同,"点外卖 agent"就是一个很好的例子。这类 agent 的价值不在于文本输出的精妙程度,而在于能否按用户预期完成实际任务。

值得注意的是,尽管 agent 应用功能强大,但大多数仍然采用对话框作为前端交互形式。

更多原生应用的可能性:超越文本指令

有观点认为对话框将取代 GUI 或 CLI/TUI,成为新一代的主流交互模式。但请注意,输入文本指令(即使使用语音输入)实际上是相当繁琐的过程:它首先需要调动大脑进行措辞思考,然后在物理层面完成输入动作。相比之下,短视频的核心交互只需一个简单的下滑动作,用户就能完成内容消费。而 UI 中常见的选框、按钮、滑块等组件,都代表着相当简洁的交互形式。

那么,如果我们摒弃文本指令输入,采用更简单的输入方式,同时仍然围绕 LLM 产出文本或数据的核心能力,会催生出怎样的原生应用呢?

最简单的例子是"一键 xxx"功能,如一键转换手办图片、一键翻译等。这些应用将 LLM 视为"魔法按钮",用户只需点击按钮即可触发 LLM 完成相应任务。

最近我设计了一个名为"WikiSurfing: 无限的虚拟维基百科"的小玩具,它的交互核心在于利用 Web 中最基础的超链接机制,构建了一个虚拟百科网站。用户点击超链接时,会跳转到相应的 LLM 生成页面。这一设计旨在重现"网上冲浪"的传统乐趣。

游戏领域同样蕴含着巨大潜力,特别是角色扮演游戏。RPG 游戏的核心在于玩家与游戏世界的交互,而 LLM 能够为玩家提供一个虚拟而无限的世界,同时创造出极具拟人特色的 NPC。如果进一步赋予 NPC 与玩家相同的行为能力,那么 NPC 就真正与玩家处于平等地位了。

陪伴者:平等地位的 AI 存在

如果说 RPG 游戏中的 NPC 与玩家处于平等地位,那么这或许会催生类似 MMORPG(大型多人在线角色扮演游戏)的全新游戏形式。但如果将这种平等地位的 NPC 概念延伸到现实世界,它会呈现出怎样的形态?我可以称之为陪伴者。

我认为陪伴者代表着一类相当特殊的交互形式。它的特征不在于具备某些具体功能,而在于能够在心理层面与用户产生真正的交互。这首先要求用户相信其人格化的存在,也就是"图灵测试"的本质含义;而通过“图灵测试”的前提正是要求它在功能上足够丰富而强大。LLM 的诞生让这一切成为可能:从基础的对话交流,到数字世界中的各种行为表现,最终延伸至物理世界中的实际行动。

总结:迈向有机的人机交互

本文系统梳理了 LLM 人机交互的多种形态:从最基础的对话框和搜索框,到深度集成的泛 Copilot 和文本处理应用,再到完全依赖 LLM 能力的原生应用如 Agent,最后展望了具有人格化特征的陪伴者形态。

这些交互形式呈现出清晰的演进脉络:从简单的文本输入输出,到深度集成用户工作流程,再到创造全新的交互体验。每一种形态都有其独特的价值和适用场景,它们之间并非简单的替代关系,而是相互补充的生态体系。

真正"有机"的 LLM 人机交互,应当根据具体场景灵活选择最合适的交互形式,让技术自然而然地融入人们的生活和工作中。随着 LLM 能力的持续提升,我们有理由期待更多创新交互形式的涌现,最终实现人与 AI 的和谐共存。