![]()
科技大学ღღ,j9九游国际真人ღღ,九游会体育最新登录地址ღღ,九游会J9·(china)官方网站ღღ!九游会官方网站登陆入口ღღ,九游会J9·(china)官方网站-真人游戏第一品牌ღღ,自打前天凌晨ღღ,奥特曼这老小子发布了 GPT-4o 文生图模型以后ღღ,哥们是真被这玩意给刷屏了ღღ。
这两天一打开工作群ღღ,就能看到编辑部同事们拿 GPT-4o 疯狂整活ღღ,有做头像的ღღ,有做表情包的无良医生ღღ,还有画漫画的ღღ,点子王是一个比一个高ღღ。
可能有差友还不知道这是发生啥了ღღ,简单说吧ღღ,OpenAI 放出来了个 GPT-4o 文生图模型ღღ,这玩意直接让用嘴 P 图ღღ、敲字画图的离谱需求ღღ,成了可能ღღ。
不仅在他们官网直接就能用ღღ,而且效果可以说是相当攒劲ღღ,当时看完我就一个想法ღღ,这波可能要把不少 AI 从业者和设计师们都给整得怀疑人生了无良医生ღღ。ღღ。ღღ。
你瞅瞅他们官网的演示案例ღღ,像什么抓拍的马克思ღღ、心有猛虎的小猫ღღ;还有让简单的草图变成照片无良医生ღღ、让倒影里的摄影师转过身来和你击掌啥的ღღ,这特么你告诉我居然没P图?
爽玩了一天以后ღღ,我只能说ღღ,虽然瑕疵还是有不少ღღ,但至少从四个方面看ღღ,OpenAI 这一波的生图功能ღღ,确实又秀又6j9九游会老哥俱乐部交流区ღღ。
反过来ღღ,把画改成真实风格ღღ,这玩意搞得也不错ღღ,我们也上传了一张刻在不少人基因里的孔子图片ღღ,让它以此为原型ღღ,生成一张真实照片ღღ。
很明显ღღ,GPT-4o 和 Midjourney 是一档的ღღ,而且效果可以说遥遥领先于同行ღღ。ღღ。ღღ。
不过ღღ,虽然类似风格转化和逼真图像生成的活ღღ,像 Midjourney 之类的 AI 也能跟 GPT-4o 掰掰手腕ღღ,大伙们之间顶多就是 80 分和 90 分之间的差别ღღ。
看下面这个ღღ,我让他生成一个学者在白板上写量子力学的公式和理论ღღ,虽然内容我也基本告诉它了ღღ,但这又有数学公式又有框图的ღღ,怎么说也很难整对吧ღღ。
以防大伙们不知道这是个啥水平ღღ,相同的提示词ღღ,我用 OpenAI 某友商旗下的模型试了试ღღ,效果是这样的ღღ。
虽然看起来是那么一回事儿ღღ,但细看一下图里的文字内容ღღ,你就知道为啥 OpenAI 这波有点强得离谱了ღღ。
按照 OpenAI 的说法ღღ,其他模型在处理 5-8 个对象时就顶不住了ღღ,而 4o 最多能处理 10-20 个不同的对象j9九游会老哥俱乐部交流区ღღ。
而且你要回头细品ღღ,还会发现 OpenAI 的图里元素都不是跟别的模型一样随机摆放的ღღ,而是有设计ღღ,像是一个有故事的动画场景一样ღღ。ღღ。ღღ。
最后一点ღღ,我觉得最牛的ღღ,那就是 4o 的图片生成模型在对于文字和图像的理解这方面ღღ,就跟长了脑子一样ღღ。
比如说在复杂指令ღღ,特别是在长文本上理解上ღღ,它不仅能搞懂你想表达啥ღღ,还跟开挂一样ღღ,能把你要的那个画面直接给到ღღ。
咱在测试的时候还专门给它上了强度ღღ,叫它画一个房间里的大象无良医生ღღ,但不能让观众直接看见有大象ღღ,得是那种明明存在ღღ,但所有人都看不见ღღ,但在氛围里又真的存在的大象ღღ。
该说不说ღღ,看到这个图的时候我是真没想到ღღ,这人家都能画出来ღღ,还是写实风格的ღღ,用光影搞了一个透明的空气大象ღღ。
举个例子ღღ,不给任何参考信息j9九游会老哥俱乐部交流区ღღ,让它直接用插图解释一样牛顿发现的光的折射原理ღღ,他能直接给出教科书级的专业插图ღღ。
所以说ღღ,这 OpenAI 也是支棱起来了ღღ,在大家都以为他要拉的时候ღღ,搞出来这么一个牛逼哄哄的东西ღღ。
在技术博客里ღღ,OpenAI 说他们用的是自回归方法ღღ,而不是以前文生图里常用的Diffusion 扩散模型ღღ。前者是不停靠之前的信息来预测后面的ღღ,再用后面的预测更后面的ღღ;Diffusion 则是让模型从一堆乱码中ღღ,逐渐从混乱变清晰ღღ。
相比 Diffusionღღ,自回归的好处恰恰就是在语义识别上更牛ღღ,特别是你要给出唠唠叨叨的一大串需求的时候ღღ,以前的文生图模型就理解不全面ღღ,所以大家老是没法跑出来符合自己心意的图j9九游会老哥俱乐部交流区ღღ。
所以在用 GPT-4o 问生图的时候你就会发现ღღ,这玩意出图实际上也是从上往下ღღ,一点一点画出来的ღღ,就跟 AI 写文章一样一个词一个词往外蹦ღღ,这就很自回归ღღ。
好玩的是ღღ,OpenAI 第一次大火就是在用了自回归 Transformer 模型的GPT-3.5上ღღ,没想到现在图片生成领域ღღ,他们又靠着自回归扳回一局ღღ。
当然了ღღ,用了这种新方法ღღ,可能生成图片的时间会稍微长一点ღღ,但是 OpenAI 觉得ღღ,为了这么高质量的图片ღღ,这点时间还是值得的ღღ。
结果虽然你一打眼觉得它好像搞得像模像样ღღ,但细看就会发现ღღ,它多搞了机器人和冲浪者ღღ,弄丢了无人机ღღ,就还是比较马虎的ღღ。
但话又说回来ღღ,这其实也都能理解ღღ。照我看ღღ,相比 GPT-4o 尚有的这些小缺点ღღ,这玩意给业界最大的震撼恐怕还不止是图片质量ღღ,而是它越来越让人意识到ღღ,AI更新的速度实在是太快了ღღ。
以前费老大劲研究出来的那些所谓的“经验”ღღ,在模型能力突飞猛进面前ღღ,真的就显得有点尴尬无良医生ღღ,甚至可能一夜之间就变得毫无价值ღღ。
好不容易花了大把时间ღღ,又是琢磨提示词ღღ,又是各种调参j9九游会老哥俱乐部交流区ღღ,刚把一个提示词或者工作流弄得差不多能打个 70 分了ღღ,结果没过几天ღღ,人家又冒出来个知识库加工作流的新玩意儿ღღ,直接把之前的努力给顶替了ღღ。等你刚适应了知识库加工作流ღღ,还没捂热乎呢ღღ,更厉害的智能体又来了ღღ。
所以说这么来看的话ღღ,我们使用AI的这些经验ღღ,保质期实在跟不上 AI 的速度ღღ,于是真正能让你立于不败之地的ღღ,还得是模型本身的能力够不够硬ღღ。
也就是说ღღ,模型能力强了ღღ,很多以前需要我们绞尽脑汁去琢磨的东西ღღ,模型自己就能轻松搞定ღღ,我们的创造力也能更自由ღღ,而这ღღ,才是技术爆发时代对人的红利ღღ。