Meta 的 LLM “LLaMA”的意外开源成为振兴开源 AI 社区的火花。
现在,微软似乎希望通过推出“HuggingGPT”(也称为“JARVIS”)来复制他们的成功。这项技术建立在ChatGPT之上,旨在利用开源AI研究的最大支柱之一Hugging Face来创建一种解决复杂AI问题的新方法。
微软的研究人员详细介绍了一种使用LLM作为系统面向用户的部分的方法,利用其自然语言功能与其他模型进行交互。这似乎是“Visual ChatGPT”的精神继承者,后者使用类似的方法将LLM插入文本到图像模型。 微软“JARVIS”是一个协作系统,该系统由LLM作为控制器和众多专家模型作为协作执行者(来自HuggingFace Hub)组成。我们系统的工作流程包括四个阶段:
任务规划:使用ChatGPT分析用户的请求以了解他们的意图,并将其分解成可能解决的任务。
模型选择:为了解决计划的任务,ChatGPT 根据他们的描述选择托管在拥抱脸上的专家模型。
任务执行:调用并执行每个选定的模型,并将结果返回给 ChatGPT。
响应生成:最后,使用 ChatGPT 集成所有模型的预测,并生成响应。
“JARVIS”以钢铁侠的私人人工智能助手命名,旨在将开源社区和 ChatGPT 的力量结合在一起。正如 JARVIS 访问 Tony Stark 庞大的服务库并充当各种 AI 管家一样,HuggingGPT 通过用户和模型之间的接口为某些用例调用专门的模型。为 HuggingGPT 创建的体系结构由两个主要组件组成。第一个是LLM,它充当控制器。此模型承担规划任务、选择辅助模型和生成响应的角色。第二个组件是拥抱脸平台,主要进行任务执行。JARVIS的突出特点是它背后的思想,可以浓缩为“语言即界面”的定义。通过使用语言作为通用界面并将LLM置于“大脑”位置,许多不同的,专门的AI模型可以协同工作。