有机的 LLM 人机交互: 不只是对话框

by Yanli 盐粒 in 2025-09-17

对话框：有状态的深度交互

首先当然是对话框。对话框是最常见的 LLM 交互形式，从 ChatGPT 开始就广为人知。其场景包括但不仅限于回答问题、信息检索、对话交流、文字游戏等等。它的输入和输出都是文本或富文本。

对话框的核心优势在于其有状态性——能够记住对话历史，支持多轮深入交互。用户可以持续探讨同一话题，逐步完成复杂任务。然而这种形式也有其局限性：用户需要明确表达自己的需求，而开放性的交互界面有时反而让人不知从何开始。

搜索框：聚焦明确的查询需求

相比对话框的开放性，搜索框更加简洁明确，主要聚焦于两种不同的使用场景：问答和检索。

在问答场景中，用户输入明确的问题，通常以疑问词开头，如"今年 PyCon China 是什么时候？"或"Python 的依赖 lock 机制如何运作？"。而在信息检索场景中，用户则输入关键词或短语进行索引查找，如"PyCon China 2025"、"PEP 751"等，期望找到具体的网页或资源。

与对话框的有状态性形成对比，搜索框采用无状态的交互模式。每次查询都是独立的，使用简单高效。不过，当用户需要基于搜索结果继续深入追问时，这种交互往往会自然演进为对话框形式。

集成 LLM 的应用：无缝融入工作流程

从前面两种直接的人机交互形式，我们转向另一类应用——LLM 不再作为独立的交互界面，而是嵌入为软件功能的一部分。

泛 Copilot：重塑专业创作流程

当我们将 LLM 集成到专业创作软件中，让用户在创作过程中无缝调用 LLM 进行辅助工作时，便形成了我所称的"泛 Copilot"交互模式。

这类交互的突出特点是，它几乎没有改变用户的既有工作流程，而是巧妙地将其中某些步骤替换为 LLM 调用。比如，代码编辑器中基于 LSP 的代码补全升级为基于 LLM 的智能补全；文本编辑器提供基于 LLM 的语法检查和文本润色功能。

这种模式真正实现了 LLM 与用户内容生产流程的深度融合，让 AI 能力成为创作工具的自然延伸。

文本处理应用：从"不可用"到"很好用"的跨越

另一个值得关注的领域是文本处理应用。在 LLM 的加持下，许多此类应用在功能性上获得了质的提升，实现了从"不可用"到"很好用"的关键跨越。

翻译软件是这一变化的典型代表。集成 LLM 后，翻译软件不再局限于处理小段文本的辅助角色，而是成为更值得信赖的专业工具，能够胜任全篇文章甚至整本书籍的翻译工作。更令人惊喜的是，在编程、法律、医学、金融等专业领域的翻译任务中，LLM 不仅表现出色，其准确性甚至可能超越人类专家。

语言学习软件同样经历了显著变化。对话练习、口语对练、作文批改等传统语言学习任务，在基于 LLM 的软件中都得到了很好的实现。

此外，邮件分类总结、RSS 信息订阅和整理等过去相对繁琐的功能，在 LLM 的支持下也变得触手可及。

原生 LLM 应用：完全依赖 AI 能力的新形态

所谓"原生"，指的是完全依赖于 LLM 产出文本、序列或数据能力而构建的应用。

Agent：从简单指令到复杂任务

Agent 无疑是今年最火热的概念之一。在我看来，它所指的是一个具有通用性的全能助理程序：用户只需输入简单的指令，它就能根据指令完成复杂的任务。根据任务类型的不同，Agent 可以分为两大类：产出内容的 agent 和执行任务的 agent。

产出内容的 agent 中，最典型的例子包括 deep research 和 coding agent。Deep research 虽然仍聚焦于文字任务，但通过多次迭代能够产出综合性报告，有时甚至可以排版成 HTML 格式以提升可读性。Coding agent 则专注于代码产出，尽管用户给出的指令简单，但它能自主探索庞大的代码库，并提供符合用户需求的精准修改。

执行任务的 agent 则有所不同，"点外卖 agent"就是一个很好的例子。这类 agent 的价值不在于文本输出的精妙程度，而在于能否按用户预期完成实际任务。

值得注意的是，尽管 agent 应用功能强大，但大多数仍然采用对话框作为前端交互形式。

更多原生应用的可能性：超越文本指令

有观点认为对话框将取代 GUI 或 CLI/TUI，成为新一代的主流交互模式。但请注意，输入文本指令（即使使用语音输入）实际上是相当繁琐的过程：它首先需要调动大脑进行措辞思考，然后在物理层面完成输入动作。相比之下，短视频的核心交互只需一个简单的下滑动作，用户就能完成内容消费。而 UI 中常见的选框、按钮、滑块等组件，都代表着相当简洁的交互形式。

那么，如果我们摒弃文本指令输入，采用更简单的输入方式，同时仍然围绕 LLM 产出文本或数据的核心能力，会催生出怎样的原生应用呢？

最简单的例子是"一键 xxx"功能，如一键转换手办图片、一键翻译等。这些应用将 LLM 视为"魔法按钮"，用户只需点击按钮即可触发 LLM 完成相应任务。

最近我设计了一个名为"WikiSurfing: 无限的虚拟维基百科"的小玩具，它的交互核心在于利用 Web 中最基础的超链接机制，构建了一个虚拟百科网站。用户点击超链接时，会跳转到相应的 LLM 生成页面。这一设计旨在重现"网上冲浪"的传统乐趣。

游戏领域同样蕴含着巨大潜力，特别是角色扮演游戏。RPG 游戏的核心在于玩家与游戏世界的交互，而 LLM 能够为玩家提供一个虚拟而无限的世界，同时创造出极具拟人特色的 NPC。如果进一步赋予 NPC 与玩家相同的行为能力，那么 NPC 就真正与玩家处于平等地位了。

陪伴者：平等地位的 AI 存在

如果说 RPG 游戏中的 NPC 与玩家处于平等地位，那么这或许会催生类似 MMORPG（大型多人在线角色扮演游戏）的全新游戏形式。但如果将这种平等地位的 NPC 概念延伸到现实世界，它会呈现出怎样的形态？我可以称之为陪伴者。

我认为陪伴者代表着一类相当特殊的交互形式。它的特征不在于具备某些具体功能，而在于能够在心理层面与用户产生真正的交互。这首先要求用户相信其人格化的存在，也就是"图灵测试"的本质含义；而通过“图灵测试”的前提正是要求它在功能上足够丰富而强大。LLM 的诞生让这一切成为可能：从基础的对话交流，到数字世界中的各种行为表现，最终延伸至物理世界中的实际行动。

总结：迈向有机的人机交互

本文系统梳理了 LLM 人机交互的多种形态：从最基础的对话框和搜索框，到深度集成的泛 Copilot 和文本处理应用，再到完全依赖 LLM 能力的原生应用如 Agent，最后展望了具有人格化特征的陪伴者形态。

这些交互形式呈现出清晰的演进脉络：从简单的文本输入输出，到深度集成用户工作流程，再到创造全新的交互体验。每一种形态都有其独特的价值和适用场景，它们之间并非简单的替代关系，而是相互补充的生态体系。

真正"有机"的 LLM 人机交互，应当根据具体场景灵活选择最合适的交互形式，让技术自然而然地融入人们的生活和工作中。随着 LLM 能力的持续提升，我们有理由期待更多创新交互形式的涌现，最终实现人与 AI 的和谐共存。

对话框：有状态的深度交互 ​

搜索框：聚焦明确的查询需求 ​

集成 LLM 的应用：无缝融入工作流程 ​

泛 Copilot：重塑专业创作流程 ​

文本处理应用：从"不可用"到"很好用"的跨越 ​

原生 LLM 应用：完全依赖 AI 能力的新形态 ​

Agent：从简单指令到复杂任务 ​

更多原生应用的可能性：超越文本指令 ​

陪伴者：平等地位的 AI 存在 ​

总结：迈向有机的人机交互 ​