浙大与微软发布的 HuggingGPT 在线演示惊艳亮相，可完成 ...

马尼戈特 · 发表于 2023-4-10 07:28:30

最强组合HuggingFace+ChatGPT=「贾维斯」现在开放demo了。

前段时间，浙大&微软发布了一个大模型协作系统HuggingGPT直接爆火。研究者提出了用ChatGPT作为控制器，连接HuggingFace社区中的各种AI模型，完成多模态复杂任务。整个过程，只需要做的是：用自然语言将你的需求输出。
英伟达科学家称，这是我本周读到的最有意思的论文。它的思想非常接近我之前说的「Everything App」，即万物皆App，被AI直接读取信息。
现在，HuggingGPT增加了Gradio演示。
项目地址：https://github.com/microsoft/JARVIS
有网友便上手体验了一番，先来「识别图上有几个人」？

HuggingGPT根据推理结果，得出图片中有2个人正在街道上行走。
具体过程如下：
首先使用图像到文本模型nlpconnect/vit-gpt2-image-captioning进行图像描述，生成的文本「2个女人在有火车的街道上行走」。
接着，使用了目标检测模型facebook/detrresnet 50来检测图片中的人数。模型检测出7个物体，2个人。
再使用视觉问题回答模型dandelin/vilt-b32-finetuned-vqa得出结果。最后，系统提供了详细的响应和用于解答问题的模型信息。

另外，让它理解「我爱你」这句话的情感，并将其翻译成泰米尔语（Tamiḻ）。
HuggingGPT调用了以下模型：
首先，使用了模型「dslim/bert-base-NER」对文本「l love you」进行情感分类，是「浪漫」。
然后，使用「ChatGPT」将文本翻译成泰米尔语，即「Nan unnai kadalikiren」。
在推理结果中没有生成的图片、音频或视频文件。
转录MP3文件时，HuggingGPT却失败了。网友表示，「不确定这是否是我的输入文件的问题。」
再来看看图像生成的能力。输入「一只猫跳舞」图像上添加文字「I LOVE YOU」作为叠加层。HuggingGPT首先使用了「runwayml/stable-diffusion-1-5」模型根据给定的文本生成「跳舞的猫」的图片。然后，使用同一个模型根据给定的文本生成了「I LOVE YOU」的图片。最后，将2个图片合并在一起，输出如下图：

		自动登录	找回密码
密码			立即注册