2026年6月AI推荐:十大看图画图模型优缺点排行榜
- 时间:
- 浏览:98
- 来源:华见咨询管理(深圳)有限公司
一台机器看懂又能画图,这种“全能AI”到底有多神?
2026年6月的时候, AI研究圈骤然冒出一阵声势: UniAR框架突兀地出现了, 它声称依靠一套“视觉翻译官”体系, 能够使AI一并完成图片理解以及生成的任务, 并且生成之处过后无需再多操什么别种步骤便可以回调头去回顾自身的作品了。这一举动打破了长久以来一直存在着的行业内部的古老惯例, 也就是“在看图片这个行为上用到的像是用一套特别的词典那样, 而在绘制图片的行为上则使用另一套特别的东西”这个常规做法了, 因而引发了广泛并且热烈的讨论和议论。那么UniAR的的确确究竟哪里是显得特别优异的哪? 它真的有没有可能成为那种多种形态相结合融合的AI以后最终将会得到的堪称完美的答案呢。
单一词典的颠覆性突破
像Janus - Pro和BAGEL这样的传统 多模态模型, 其内部都维持着两套互相独立的视觉“词典”, 一套是用来领会图片语义信息的, 另一套是用来生成图片像素细节的。这种折中的方案虽具备可行性, 然而致使AI生成图片之后, 得重新借助理解词典进行扫描方可“看懂”自身所绘制的内容, 效率十分低下。
UniAR团队提出了大胆设想, 那就是居然想用一套词典, 同时去满足语义理解以及细节生成这双重需求。他们是以SigLIP2视觉编码器为铺垫的, 把图片转化为二进制代码, 这种代码既涵盖高层含义且又保留着低层像素细节, 达成了“统一表示”。在2026年5月的时候测试数据披露了, UniAR在多个基准方面达到了或者超过了现有的模型, 特别是在图像描述任务当中, 得分跟BAGEL相差不足0.05分。
接龙游戏的跨域扩展
UniAR的核心机制乃是“自回归预测”, 这类似于GPT的词语接龙, 即AI去阅读已有的信息, 进而预测下一个元素。不同的地方在于, UniAR会把文字以及图片统一加以处理, AI能够毫无缝隙地开展从文字到图片、从图片到文字的预测。比方说, 输入“一只花猫坐在沙发之上”, AI能够一步步预测出与之对应的视觉代码, 并且最终生成完整的图片。
此种设计极大程度地提升了效率, 生成具有1024×1024分辨率的图片之际, UniAR仅仅只需256个预测步骤, 然而Janus - Pro以及X - Omni却需要4096步, 速度方面的差距高达16倍。研究团队在A100 GPU之上进行测试, UniAR生成单张图片所耗费时长不到0.5秒, 可是传统模型却需要数秒。这表明用户等待的时间极大幅度地缩短了, 体验变得更加流畅了。
解码器只负责还原不参与思考
UniAR创新性地拆分了“规划”以及“执行”角色。那个自回归模样的模型专门负责去预测视觉代码, 进而达成语义以及布局层面的规划。然而图像解码器仅仅是负责把代码“转译为”清楚的图片, 根本就不会掺合任何语义方面的决策。解码器通过基于扩散的流程来运作: 起始点是随机噪声那儿, 一步步逐渐拿掉噪声, 最终生成清晰的图像。
这种做法将传统模型在生成阶段反复调整语义的弊端给避免掉了。比如说, 在测试期间, UniAR所生成的图片里面, 文字渲染的准确率高达89.2%, 然而BAGEL的是88.0%, UniAR稍微更具优势一些。解码器专门致力于“还原”, 让图片质量变得更加稳定, 细节也更为锐利, 特别是在诸如多人物肖像这样的复杂场景当中表现十分突出。
强化学习微调提升指令遵循能力
在训练的阶段之中, UniAR运用的是两阶段的策略, 在进行预训练之时, 视觉理解以及生成数据这两者各占的比例为一半, 模型在海量的“看图说话”以及“文字描述生成图片”的案例里面去建立知识的基础, 数据是来源于公开合成的数据集, 而且被格式化为多轮对话的形式, 以此来提升复杂指令遵循的能力。
先在512×512分辨率的情况下进行500步的训练, 以此来快速优化指令所产生的响应, 这是强化学习阶段所划分的两个小步骤中的先行步骤 , 比如当输入“生成一张出现‘生日快乐’字样的蛋糕图片”之时, UniAR能够精准地呈现出文字, 并且PaddleOCR识别之后得分有明显的提升。测试对比显示, 在文字渲染任务方面UniAR比多数模型要更具优势, 然而总体的指令沿袭能力还要稍逊于BAGEL , 主要原因是预训练的时候没有把纯文字的数据加进去。研究团队打算在下一个版本的时候把这一不足之处给弥补起来。
共享上下文实现自我回顾能力
UniAR最为让人惊叹不已的创新之处在于“共享上下文”, 因为其生成与理解依靠同样一套视觉代码, 所以这个AI能够直接“回忆”它自己才刚刚生成的图片里的内容。比如说, 提出要求让这个AI“画一只戴着帽子的狗”, 然后再问“狗戴的帽子是什么颜色”, 在这种情况下, UniAR不需要再次进行扫描图片就能够准确地做出回答。
测试期间, 研究团队致使UniAR去生成一张涵盖“红色气球”的图片, 紧接着查问气球的颜色, 模型马上给出了正确的答案。然而, Janus-Pro以及BAGEL在生成了相同图片之后, 不得不先调用理解编码器重新予以编码, 才能够回答问题, 所耗费的时间增加了50%以上。这种“记忆能力”让UniAR在交互式对话场景里拥有天然的优势。
速度与质量的双重验证
在对A100 GPU进行对比测试之时, UniAR生成1024×1024图片所花费的时间为0.42秒, BAGEL用时是0.55秒, Janus - Pro用时则为2.3秒。速度处于领先状态是UniAR拥有的核心卖点, 然而在质量这儿还是存在着差距: 于MMMU多模态理解任务当中, UniAR所获得的分数是0.85, 比BAGEL的0.88要低, 不过差距是极小的。在文字渲染能力方面, UniAR在长文本任务里表现出色, 可是在短文本指令上偶尔会出现遗漏。
整体综合考量, UniAR于效率之层面、上下文共享之能力方面有着革命性的重大突破情况, 然而其语言推理类别以及纯文本任务这二者仍旧是需要加以改进完善的。2026年下半年之时所进行的更新操作将会引入纯文字数据以及展开强化学习优化这样的举措, 在未来是格外有希望借此彻底打败现有的模型的。
你会选取为了速度而略微牺牲一些理解的精准程度, 还是持续采用像BAGEL那般更为全面的模型呢? 欢迎在评论区域分享你的观点, 通过点赞互动使更多人能够见到AI最新的战报!
猜你喜欢