
百事可撸 GPT-4o图像生成架构被“破解”了?自追思骨干+扩散解码器,还有4o图像生玉成面测评基准
石川澪 白虎
发布日期:2025-04-10 14:11 点击次数:68
GPT-4o 图像生成架构被"破解"了!百事可撸
最近一阵,,东谈主们随之有趣:
4o 图像生成的架构底层逻辑到底是什么?GPT-4o 究竟强在哪?存在哪些短板?
看成解答,北京大学、中山大学等多家科研机构共同推出GPT-ImgEval,初度系统评估了 GPT-4o 在图像生成上的委果发达。
这份量化评估基准不仅囊括了生成质地、剪辑才气和知识推理,还尝试揭示GPT-4o 背后的可能架构,还磋议了它生成图像的可检测性问题。
底下具体来看。
GPT-4o 架构揭秘:可能使用了扩散 + 自追思羼杂决策
GPT-ImgEval 团队尝试"反向破解"GPT-4o 的图像生成架构。
参谋团队在论文中提倡了 4 种候选架构决策(见下图),尽管细约莫有不同,但有小数是一致的:GPT-4o 很可能遴荐的是自追思骨干 + 扩散头的羼杂结构。
泛泛来说,它的责任过程可能是这么的:文本或指示→ 自追思模块透露语义 → 生成中间视觉 Token → 扩散模子将这些 Token 解码成图像。
天然,架构测度不成仅靠想象。为此,参谋团队遐想了一套严谨的实证面孔:
先录取一组调理的文本教唆(prompt),分离使用自追思模子(VAR)和扩散模子(Diffusion)各自生成 1 万张图像看成对比样本;
诳骗这些图像老师一个二分类器,让它学会识别图像是" AR 作风"一经" Diffusion 作风";
然后,用相同的 Prompt 交给 GPT-4o 生成图像,将这些图像输入该分类器进行识别。
也即是说,通盘过程中,教唆词保持统调理致,只看不同模子生成的图像"长得像谁",以此判断 GPT-4o 的生成方式更接近哪类结构。
完毕很凯旋:GPT-4o 生成的图像简直一齐被识别为"扩散作风",这就从图像作风维度考据了 GPT-4o 的确可能用了扩散模子看成解码器。
除了对视觉解码器的分析,参谋东谈主员也深刻磋议了视觉编码方式。他们指出,一些参谋(如 UniTok)觉得基于向量量化(VQ)的编码器可能会松开模子的语义透露才气。
因此,作家觉得若是遴荐了 pixel encoder,其大要率是一语气(非 VQ)的而不是糟蹋(VQ)的,并基于此提倡了四种可能的完满架构表示图。
三大维度全面评估 GPT-4o 图像才气
GPT-ImgEval 聚焦三类中枢任务,对 GPT-4o 进行了系统评估:
文本生成图像(GenEval):通过对物体数目、姿色、位置、组合属性等细粒度维度进行测评,考据模子对文本的透露与图像的构造才气。
指示剪辑图像(Reason-Edit):模拟用户给出修改指示后,模子在保留图像语义基础上进行局部剪辑的才气,如替换、删除、变色等。
基于天下知识的语义合成(WISE):磨练模子是否能将对天下学问、文化布景、科学旨趣等知识真确"显性化"为图像输出。
为了撑持这一系统评估,参谋团队开采了一套针对 GPT-4o 的自动化交互剧本,惩处了现时该模子尚未通达图像生成 API 的实际问题。
这套剧本凯旋与 GPT-4o 网页界面交互,模拟委果用户行径:
自动输入教唆词(Prompt)、点击提交
自动合手取生成图像并存储存档
每次恳求会新开浏览器窗口,确保不同任务之间落魄文不相互侵略
撑持任务批量启动,可达成大鸿沟、可交流的图像生成任务调养
最终百事可撸,GPT-ImgEval 的举座责任流如下图所示:
在文本生成图像(GenEval)任务中,GPT-4o 赢得了0.84 的总得分,高出现在总共扩散类与自追思类图像生成模子。
尤其在以下几项中发达隆起:数目戒指(0.85)、姿色绑定(0.92)、空间位置(0.75)、属性组合(0.61)。
下图是一些 GPT-4o 使用 GenEval 基准中的 prompt 生图的具体例子:
而在图像剪辑任务(Reason-Edit)中,GPT-4o 得分高达0.929,最初第二名最初 0.35,施展其在指示透露和局部戒指上发达极其矫捷。
在知识合成(WISE)任务中,GPT-4o 相同大放异彩,多个子维度(生物、文化、物理等)得分均最初 0.9,总分 0.89,远高于现时开源模子(大批在 0.4~0.5 之间)。
近亲乱伦这施展 GPT-4o 具有重大的天下知识和推理才气,这应该是收货于 GPT-4o 这种调理多模态框架。
更多参谋论断 GPT-4o vs Gemini 2.0 Flash:多轮剪辑对比
参谋团队还对 GPT-4o 与 Google 的 Gemini 2.0 Flash 进行了多轮图像剪辑对比。
除了性能与架构机制,GPT-4o 在本色的使用体验中也展现出了刚劲的竞争力。参谋团队对其与 Google 最新发布的 Gemini 2.0 Flash 进行了多轮剪辑任务的实测对比。
GPT-4o 撑持完满的多轮对话式剪辑过程,落魄文一致性强
Gemini 反应速率更快,但每轮需重新上传图像,短少一语气性
在一语气修改、复杂指示透露、图像语义保持方面,GPT-4o 发达出更高的矫捷性
从举座趋势来看,两者在剪辑轮数加多后均出现一致性下落,但 GPT-4o 下落更缓,保持更稳。
GPT-4o 与 Gemini 2.0 Flash 多轮剪辑一致性对比如下图所示:
这一双比完毕也进一步考据了:交融大模子语义透露才气的图像生成系统,在交互式创作任务中,正在展现出压倒性上风。
GPT-4o 仍存五大问题,图像量化评估并非无解
参谋团队总结出 GPT-4o 现时的五个常见生成难点:
无法严格保持原图尺寸与边框比例,巧合会自动裁切或缩放
强制锐化,即使用户条目生成迂缓图,也会被模子"优化"成高清
剪辑偏暖、全图色调变化,即使只修改小部分,可能全图色调甚而是全局都会被一定进度修改
复杂场景失真,多东谈主或东谈主 - 物体交互场景易出现姿态不天然或结构紊乱
非英文文本撑持较弱,如汉文标识常出错,难以在复杂布景准确生成
这些问题不仅影响使用体验,也教唆咱们—— GPT-4o 仍在追求"天然感"与"精确戒指"之间寻找均衡。
这些图像能被检测出来吗?
除了感知层面的不雅察和评估,参谋团队进一步念念考一个关节问题:GPT-4o 生成的图像,是否的确不错"以伪乱真"?
为此,参谋者使用多个主流图像取证模子,对 GPT-4o 生成的图像进行了系统性评估。
完毕表露,包括 Effort、FakeVLM 在内的多种检测器,对 GPT-4o 图像的识别准确率大批最初 95%,最高接近 99.6%。
不单是停留在数值层面,参谋团队还对量化评估见效的原因进行了机制层面的归因分析:
GPT-4o 可能在图像生成过程中引入了超分辨率模块,通过上采样插值导致赫然伪影
模子有过度锐化与细节增强倾向,视觉后果虽然"精采",却留住了被取证模子捕捉的印迹
在用户未条目修改时,仍可能出现尺寸、色调的隐性变化,糟蹋了图像一致性
GPT-4o 生成图像色调大批偏暖,举座作风趋同,易被量化评估模子开采"作风识别模式"
可量化评估,并非瑕玷,而是 AIGC 安全遐想的基线才气
参谋团队觉得,是否可量化评估,不应成为筹划生成模子才气强弱的圭臬,而应被视为评估其可控性与安全性的进犯诡计。
在将来的 AIGC 系统遐想中,"传神"虽然进犯,但"可识别"、"可跟踪"相同不可或缺。GPT-4o 生成图像中的伪影、色调偏好等特征,也恰是鼓动生成量化评估参谋的进犯冲破口。
这也恰是 GPT-ImgEval 的互异化亮点之一:不仅作念量化评估,更从安全机制的角度进行深刻会诊和前瞻探索。
GPT-4o 很强,但"末端"远未到来
GPT-ImgEval 不仅考据了 GPT-4o 在图像生成上的上风,更指出了它仍需冲破的短板。尤其是在可控性、多语种处理、局部剪辑矫捷性等方面,仍有不少提高空间。
GPT-ImgEval 不仅系统性考据了 GPT-4o 在图像生成、图像剪辑与知识合成三大任务中的最初发达,更进一步揭示了其架构特征、失败模式与安全领域。
该参谋不仅在评测维度上达成了阴事粗浅、量化精确,也从架构判别、剪辑可控性、多轮透露才气和伪影检测等多个层面,对 GPT-4o 进行了时刻全景式会诊。
参谋团队觉得,该责任的进犯意旨在于:
1、提供系统化多模态评估范式:初度从"生成 - 剪辑 - 推理"全过程起程,开采详细图像才气测试框架;
2、鼓动闭源模子的"可讲授评测"参谋:在无法打听模子细节的前提下,开采架构测度和行径归因机制;
3、强调通用多轮剪辑场景的实用价值:用用户视角考据语义透露一致性与细节保真性,为交互遐想落地提供参考;
4、补皆图像生成安全性参谋缺口:通过可检测性实证,发现图像中的上采样 / 超分伪影、色调特征,鼓动 AIGC 取证时刻演进。
更多细节宥恕查阅原论文。
一键三连「点赞」「转发」「留神心」
宥恕在批驳区留住你的方针!
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 格式主页一语气,以及相关方式哦
咱们会(尽量)实时复兴你
� � 点亮星标 � �
科技前沿进展逐日见百事可撸