AI 智能体与代理式 AI - 探索未来制造业的大量概念（待续）

阅读原文，脚踏实地学习 AI。从报道中学，获得的是二手、三手，甚至是 AI 总结的知识。读原文转化为逐字稿翻译任务，一是解决跑神，二是 Proof Of Work。

AI Agents and Agentic AI–Navigating a Plethora of Concepts for Future Manufacturing

摘要

AI 智能体是设计用于在动态环境中感知、推理和行动的自主系统。随着生成式 AI （GenAI）的迅猛发展，LLM（大语言模型）和 MLLMs（多模态大语言模型）已经显著的提高了 AI 智能体在语义理解、复杂推理和自动决策领域的能力。同时，智能体式 AI 的兴起突出了在动态、复杂环境中的适应性以及目标导向的自主性。以大语言模型为基础的 AI 智能体，多模态大语言模型为基础的智能体，以及代理式 AI，在信息处理、环境感知以及自主决策领域拓宽了 AI 的能力，为智能制造开辟了新的道路。然后这些新兴的 AI 范式的定义、能力边界和实际应用在智能制造领域仍然模糊。为了弥补空白，本研究系统性回顾了 AI 以及 AI 智能体的发展历程，研究核心的概念以及基于大模型的智能体、基于多模态大模型的智能体和代理式 AI 的技术进展，探索了他们在制造领域潜在的应用以及集成，同时研究了在此过程中可能买面临的挑战。

1 简介

作为复杂以及数据密集的领域，随着定制化、商品生命周期缩短、全球竞争加剧等变化，制造业面临的挑战不断增加。传统的自动化系统，依赖于固定的规则，难以适应变化的消费者需求。虽然高级机器人以及传统的机器学习已经提高了生产力，他们仍然被预定义好的特性以及优先的数据集所限制。使得他们处理非结构化数据以及新场景时是低效的。除此之外，制造业需要实时响应、精准控制和持续集成和独立决策。这些挑战呼唤着更加灵活、适应性的智慧的 AI 解决方案。

迅猛发展的生成式 AI 重塑了许多行业，包括内容制作、软件开发、科研以及商业数字化。大语言模型比如 ChatGPT 展示了史无前例的在自然语言理解、自主推理、跨领域信息整合的能力。同时，多模态大语言模型拓宽了能力的边界，除文字外集成了视觉、传感器和结构化数据，使得更加复杂的、上下文相关的决策变为可能。

随着生成式 AI 领域的进度，AI 智能体作为拥有感知、推理、行动的系统重新获得了关注。最近的研究探索了大语言模型以及多模态的大语言模型是如何集成在 AI 智能体之中，并拓宽能力以及决策的潜力。同时代理式 AI 范式的出现展示了向自主的、适应性的、目标导向的智能，使得在动态的环境中自主优化、策略性决策变为可能，而这正是制造业典型的应用场景。

大语言模型智能体、多模态大语言模型智能体以及代理式 AI被认为在不同的领域拓展了 AI 的能力圈，比如：信息处理、环境感知以及自主决策。技术进步驱动着 AI 的进化，也为未来制造系统打开了可能性的大门。尽管有着转化的可能性，定义、能力边界、应用的上下文以及交叉点在制造领域的AI 范式中仍然需要进一步的澄清。

本文系统性的分析了 AI 以及 AI 智能体的发展，研究了核心概念、技术基站以及基于大语言模型智能体、多模态大语言模型智能体和代理式 AI 带来的能力加成。随后介绍了这些进步如何应用集成到制造业中。最后评估潜在的挑战。

2 AI 与智能体的发展

基于生成式 AI 的 AI 智能体可以潜在的加速制造工业的智能化转型。然而，为了深度的理解这些技术在制造领域的实际应用，有必要探索 AI 基础理论中的多种实践方法和理论范式。本节回顾 AI 以及智能体的发展历史。通过列出这些基础的理论以及技术的进展，我们希望为接下来 AI 智能体在制造业应用中的优势和挑战的讨论中提供坚实的理论基础。

2.1 AI 技术的发展

AI 在 1956 年由 Jhon McCarthy 提出且被定义为“制造智能机器的科学与工程”。AI 致力于使得计算机可以处理人类的智能，包括感知、推理和决策。因此加强了他们在复杂环境的适应能力。存在如此多的方法或技术。

AI 领域的研究归为 3 种范式：符号主义、联结主义与行为主义。近年，联结主义上升为主流研究方法，它非常依赖机器学习作为核心方法。机器学习自动的从数据中学习模式和知识，主要分类在浅层学习和深度学习。浅层学习方法（比如：逻辑回归、支持向量机）依赖于手动设计特性和简单的模型架构，使得他们适用于简单的工作。作为对比，深度学习使用多层神经网络（比如卷积神经网络、Transformers LSTM）他们显著的提高了模型表现复杂非线性关系的能力。深度学习在接近复杂的非线性的高纬度的空间中的能力，使得它在异构、数据密集的、多变的现在制造系统中尤其擅长。机器学习算法，尤其是深度学习算法，已经被广泛的应用于制造业，支持预测性维护、流程优化以及人机协作中。

2017 年 Transformer 架构的出现开启了深度学习领域大规模预训练模型的时代，在自然语言处理的任务中性能获得巨大的提升。随着计算性能的提升以及大数据的规模化应用，一系列的 Transformer 架构的大语言模型开始出现，包括 GPT系列、Llama以及 Qwen。

大语言模型在上下文理解、指令依从、逐步推理部分展示了强大的能力。然而，他们的主要限制在于单一模态的处理，严重限制了在工业场景跨多模态的认知能力。这个缺点在制造系统的工业场景显得尤为显著，因为工业场景需要多来源的异构的数据流（文字、图像、3D打印、公式等等），它需要协同的理解能力；多模态的大语言模型已经在开发中来解决这个限制。代表性的模型有 GPT-4V, LLaVA, mPLUG-Owl2.

与单一模态的模型相比，多模态大语言模型表现出来强大的通用能力和复杂的推理能力。他们通过大量的多模态数据进行旋律来学习跨模态的语义表征，同时减少对特定任务的标注依赖。而且，通过少量的微调，多模态的大语言模型可以通过提示词或少量样本的学习适应新的任务，因而他们支持跨模态的动态的推理。

2.2 智能体技术的发展路径

早在 1950 年代， Alan Turing 把智能的概念扩充到人工智能体然后提出了著名的图灵测试。哪些人工智能体通常叫做智能体。事实上智能体和人工智能在很多概念、功能和应用上是不可分的。早期的智能体被设计处理特定的任务，比如专家系统和基于规则的推理系统。这些系统通过如果那么的逻辑链模拟专家的决策过程但是缺乏学习能力和适应复杂场景的能力。

随着计算性能和知识工程的进步，智能体技术发展为多智能体系统，使得多个智能体可以在完成复杂任务的过程中进行协作。比如：流量控制、机器人集群和金融交易。在 21 世纪，智能体的决策能力已经有巨大的提升，使得他们可以自主的在动态的环境中学习适应，比如 AlphaGo

传统的针对制造领域的智能体研究主要关注在算法设计以及训练策略上，通常忽视了核心的能力比如：知识留存、长期规划、通用化以及高效交互。强调这些基础的能力对于后期智能体的提升是非常重要的，尤其是在制造领域。独特的预训练框架和大语言模型及多模态大语言模型的出现，不仅补足了早期智能体在知识留存、长期规划和动态适应的能力，也加速了从基于规则的工具到具有自主认知、实时交互和多模态协作的转变。这依靠质量微调及多模态的对齐技术。

3 从生成式 AI 智能体到代理式 AI

智能体的进步由生成式 AI 的进展所驱动，使得在自主性、适应性以及多模态能力等方面有所提升。本小节研究了从生成式 AI 促进的智能体到代理式 AI的转变，以及记录了大语言模型以及多模态大语言模型和智能体架构是如何参与到和这个过程的。

3.1 基于大语言模型的智能体

近年，生成式 AI 极大的提升了 AI 智能体的进步，其中大语言模型扮演了核心的角色。他们强大的语言理解能力、推理能力、决策能力，使得基于大语言模型的智能体可以处理复杂任务的规划、问题解决、和人机协作。

典型的 LLM-Agents 包含四个核心部分。Profile 身份模块定义了智能体的身份、角色、行为限制。Memory 记忆模块存储检索过去的交互，提升决策时的上下文感知。Planning 规划模块将复杂的任务拆分为多结构化的多步骤，使得适应多种应用。最后，Action 行动模块通过外部工具或者内部的知识合成执行决策。汇总一起，这些模块使得基于大语言模型的智能体可以自主的在预定义的限制下操作，利用静态知识和动力学习方法。

与传统的 AI 模型相比，基于大语言模型的智能体提供了显著的优势。首先，它可以处理外部知识，拥有强大的推理能力，使得它开搞笑的处理复杂的文本输入。其次，它的通用能力可以在通过利用零样本或少量样本学习的方式下不通过特定的训练就可以完成任务。然而，尽管它擅长处理文本。基于大语言模型的智能体，主要依赖文本进行输入，限制了在非文本信息的理解和处理的能力。而且，他们的自主性仍然是有限的，它们经常需要预定义好的任务或者外部的指令来引导进行决策和执行。