MiniGPT

《MiniGPT-4: Enhancing Vision-language Understanding with Advanced Large Language Models》论文学习

一、ABSTRACT 最新的GPT-4展示了非凡的多模态能力，例如直接从手写文本生成网站和识别图像中的幽默元素。这些特性在以往的视觉-语言模型中很少见。然而，GPT-4背后的技术细节仍然未公开。我们认为，GPT-4增强的多模态生成能力源自于复杂的大型语言模型（LLM）的使用。为了检验这一现象，我们 ......

Vision-language Understanding Enhancing Advanced Language更新时间 2023-12-16

统一图像和文字生成的MiniGPT-5来了：Token变Voken，模型不仅能续写，还会自动配图了

前言 OpenAI 的 GPT-5 大模型似乎还遥遥无期，但已经有研究者率先推出了创新视觉与语言交叉生成的模型 MiniGPT-5。这对于生成具有连贯文本描述的图像具有重要意义。本文转载自机器之心仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟 ......

模型图像 MiniGPT 文字 Token更新时间 2023-10-11

体验了一把 MiniGPT-4，一言难尽

最近看到一个好玩的开源项目：MiniGPT-4。看名字像 GPT-4 的小老弟，其实没啥关系。简单说，它可以识别图像，基于图像你可以和它对话，它能生成图片描述、网站、诗歌。先看看官方给出的例子截图。给图写一段广告词还能教做饭根据图配上一段故事卧槽，AI 长眼睛了！除此之外，它还能找到 ......

一言难尽 MiniGPT更新时间 2023-06-12

GitHub 上有趣、入门级的开源项目HelloGitHub 升级版的 MiniGPT-4 搞定基于图片的文字工作

GitHub 上有趣、入门级的开源项目HelloGitHub https://github.com/521xueweihan/HelloGitHub https://github.com/521xueweihan/HelloGitHub/blob/master/content/HelloGitHub ......

升级版 HelloGitHub MiniGPT 文字项目更新时间 2023-04-29

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力！

说在前面的话：一个月前，OpenAI向外界展示了GPT-4如何通过手绘草图直接生成网站，令当时的观众瞠目结舌。在GPT-4发布会之后，相信大家对ChatGPT的对话能力已有所了解。圈内的朋友们应该已经亲身体验过无论是文本生成、编写代码，还是上下文关联对话能力，这些功能都一次又一次地震撼着我们。 ......

图像 MiniGPT 能力 What GPT更新时间 2023-04-21