微软交流社区

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 61|回复: 0

浙大与微软发布的 HuggingGPT 在线演示惊艳亮相,可完成 ...

[复制链接]

2

主题

6

帖子

10

积分

新手上路

Rank: 1

积分
10
发表于 2023-4-10 07:28:30 | 显示全部楼层 |阅读模式
最强组合HuggingFace+ChatGPT=「贾维斯」现在开放demo了。


前段时间,浙大&微软发布了一个大模型协作系统HuggingGPT直接爆火。研究者提出了用ChatGPT作为控制器,连接HuggingFace社区中的各种AI模型,完成多模态复杂任务。整个过程,只需要做的是:用自然语言将你的需求输出。
英伟达科学家称,这是我本周读到的最有意思的论文。它的思想非常接近我之前说的「Everything App」,即万物皆App,被AI直接读取信息。
现在,HuggingGPT增加了Gradio演示。
项目地址:https://github.com/microsoft/JARVIS
有网友便上手体验了一番,先来「识别图上有几个人」?


HuggingGPT根据推理结果,得出图片中有2个人正在街道上行走。
具体过程如下:
首先使用图像到文本模型nlpconnect/vit-gpt2-image-captioning进行图像描述,生成的文本「2个女人在有火车的街道上行走」。
接着,使用了目标检测模型facebook/detrresnet 50来检测图片中的人数。模型检测出7个物体,2个人。
再使用视觉问题回答模型dandelin/vilt-b32-finetuned-vqa得出结果。最后,系统提供了详细的响应和用于解答问题的模型信息。


另外,让它理解「我爱你」这句话的情感,并将其翻译成泰米尔语(Tamiḻ)。
HuggingGPT调用了以下模型:
首先,使用了模型「dslim/bert-base-NER」对文本「l love you」进行情感分类,是「浪漫」。
然后,使用「ChatGPT」将文本翻译成泰米尔语,即「Nan unnai kadalikiren」。
在推理结果中没有生成的图片、音频或视频文件。
转录MP3文件时,HuggingGPT却失败了。网友表示,「不确定这是否是我的输入文件的问题。」
再来看看图像生成的能力。输入「一只猫跳舞」图像上添加文字「I LOVE YOU」作为叠加层。HuggingGPT首先使用了「runwayml/stable-diffusion-1-5」模型根据给定的文本生成「跳舞的猫」的图片。然后,使用同一个模型根据给定的文本生成了「I LOVE YOU」的图片。最后,将2个图片合并在一起,输出如下图:

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|微软交流社区

GMT+8, 2025-1-8 11:14 , Processed in 0.068555 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表