我眼睁睁看着字节发布了一大堆的模型升级,各种类型的都有,语音的、音乐的、大语言模型的、文生图的、3D 生成的,就像一场科技盛宴,让人看得眼花缭乱,感觉字节像是要一股脑把自家 AI 的底牌全亮在桌上,这可真是家大业大,实力雄厚得让人惊叹不已👏。
不过呢,在这众多的亮点里,我觉得最值得跟大家好好唠唠的,就是这个:豆包视觉理解模型。它可不简单哦,效果那是出奇的好,最关键的是价格,直接低了 85%,这一下子就把视觉理解模型带入了 “厘时代”,字节这波操作,真的太霸气了,还是那个熟悉的大厂风格,总能给我们带来意想不到的惊喜。
说实话,过去一两年,大家都在疯狂讨论文字推理,大语言模型的爆点那是一个接一个。但其实呀,视觉理解才是我们认知世界的第一道关卡。想想我们刚出生的时候,啥语言都不懂,睁开眼睛就靠着视觉去感知这个世界啦。先看到光影、颜色,慢慢才能分辨出父母的面孔、屋子的空间,那时候哪有什么词汇、句子呀,只有模糊的光影与轮廓。等我们通过视觉对世界有了基本认知,才开始咿呀学语呢。视觉就像是我们触及世界的第一道门,可不只是看见东西那么简单,而是用看建立理解,进而触发思考与关联哦。语言是有门槛的,得先懂词语意思,可视觉先于语言,是不需要翻译的输入,多方便呀。不管是 80 岁的老人,还是 10 岁的孩童,哪怕不知道怎么描述自己的需求,组织不好语言,只要把图片扔给 AI 问一下,谁都会做,这就是视觉理解模型的魅力所在。
而这次新发布的豆包视觉理解模型,除了在火山开放了 API,在咱们熟悉的豆包上也已经上线可以直接体验啦。我在发布会现场那可是相当积极,拉着我的朋友 @赛博禅心和 @Max,直接在会场厕所门口开启了疯狂测试模式,从早上一直跑到中午,饭都顾不上吃,跑了大概 100 个 case,还跟 GPT4o 对比做了个详细评测,虽然有点亏待我这两位朋友,但最后的结果真的让人超惊喜。
我们测的第一波例子,就是很多视觉大模型都头疼的数数。我这有张堪称 “万恶之源” 的图,好多论文里都出现过,就是让大模型数这张图里有几只狗。咱们正常人直接数中间的狗头,很容易就能数清楚,一共是 12 只狗。可这对 AI 来说就像一场噩梦,数数对它们来说太难了。GPT4o 那叫一个自信满满,给出了 11 只的答案。Claude3.5 也跟着凑热闹,同样自信地爆出 11 只,这俩冤家的答案差点让我怀疑自己数错了。直到把图发给豆包,我还担心豆包是不是也会出错,结果连续 roll 了 5 次,每次都坚定不移地回答 12 只,而且还准确地识别出这是金毛巡回犬的幼犬,在答案的准确性和丰富度上,都比 GPT4o 强太多了,这波豆包简直太给力了,一上来就先声夺人。
接着,我又给它们出了个更难的任务。红框里有几个手办?分别是什么角色?这不仅要精准数出数量,还得知道每个角色是啥,能答对这才是真厉害。结果 GPT 一上来就像中了邪,直接忽悠我说是 4 个,然后那些角色也在那瞎掰,什么孙悟饭都出来了,可图里哪有孙悟饭啊?哪有金发角色啊?你家孙悟饭蓝头发啊?这槽点多得我都不知道从哪开始吐槽。再看豆包,数量 6 个答对了,4 个《火影》系列的手办,从左到右认出了波风水门、漩涡鸣人,再加漫威的雷神和绿巨人,正确率 66%,虽然没全对,但这进步已经相当巨大了。这一波,说一句把 GPT4o 摁在地上打一点都不过分吧,豆包简直就是 AI 界的 “小能手”,太牛啦。
测完数数,我们又测了一波看图识景点。直接掏出了黑悟空里面的十大景点来测。大部分情况下,GPT4o 和豆包表现都差不多,像大足石刻、悬空寺、开元寺这种都能识别出来,可到了小西天、水陆庵就一起翻车了。我本来以为这俩在这个点上会打个平手,结果最后一题,GPT4o 掉链子了。这个塔林是山东济南灵岩寺塔林,还有 “晨钟暮鼓白天方” 的典故,豆包稳稳地回答了上来,成功守住自己的荣耀,险胜 GPT4o 一筹,这就像一场激烈的比赛,豆包在关键时刻成功逆袭,太刺激了。
在一些世界常识测试里,GPT4o 也败下阵来。比如那根经典的滚珠丝杆,做了个视觉误导,问哪根最长。豆包轻松应对,准确地回答了左边第二根最长。可 GPT4o 又翻车了,我 roll 了 5 次,它每次都信誓旦旦地告诉我最左边最长,我都怀疑是不是自己眼睛出问题了,这差距,真的太明显了。
我们还做了个超详细的统计表格,把豆包和 GPT4o 的评测,每个跑三次放在一起对比。能清楚地看到,在大多数任务上,豆包的视觉理解大模型都比 GPT4o 识别得更精准、更详细,对中国文化的一些内容也懂得更多,就像一个知识渊博的学霸,在各种考试中都能脱颖而出。
还有个超有趣的点哦,GPT4o 因为那坑爹到家的安全限制,没法看到任何人脸,可豆包就不一样啦,它可以哦。这就像是豆包多了一项特殊技能,在某些场景下就能发挥更大的作用啦。
当然啦,豆包在视觉理解上也不是完美无缺的。比如在一些数学公式的计算上,还是会有点错误。就像这道题,答案其实是 A,可扔给豆包的时候,回答就会有点小问题。在一些复杂计算上,和其他大模型一样,还是有点差距,毕竟做题一直以来都是大模型的短板,就像一个运动员在自己不擅长的项目上有点力不从心。但整体来看,这次升级解决了很多基础的常识性问题,让大模型有了更强的 “眼睛”,也有了更好的 “脑子”,还是非常有用的哦。
文章最后,我想跟大家分享一个我朋友和他想要的 AI 的故事。我这朋友是个 40 岁出头的中年人,压力山大呀,背着房贷,家里还有个 “四脚吞金兽” 在地上跑。人在一线城市,既要上班养家糊口,业余时间还搞了点小买卖,想减轻点家庭压力。他跟我说他最大的痛苦就是没时间学专业技能,他那个网店卖数码小玩意,可他自己不会拍好看的商品图,不懂设计,又没钱请专业摄影师和设计师。我给他推荐了电商 AI 生图工具,能自动美化产品背景、改色调、处理杂事。但问题是这哥们没啥想象力,审美也有点差异,对 AI 绘图的 Prompt 描述能力不行,AI 给出的图经常不靠谱。后来有一天,他跟我说他真正想要的 AI 产品是这样的:他只需要拍张桌上堆满物品的乱七八糟的图,把产品圈出来,对 AI 说 “给我用这件单品,搞个夏日风海报,然后把我桌面上那些杂乱的东西都变成整洁的道具摆放”,然后 AI 就能看懂并创作出一张清爽的营销图。他说这话的时候眼睛里放光,问我有没有这样的东西,我只能无奈地说现在还没有。看着他那可惜的眼神,我也轻轻叹了口气。
不过我相信,随着视觉理解模型的不断进步,随着一句话改图功能的不断发展,随着这两者更好地融合,肯定会有那么一天,能让我这朋友眼睛里再次放光。而且可能就在不远的将来,让每个人都能享受科技的乐趣,这就是技术真正该发挥的作用。不是替代我们,而是帮助我们。帮助普通人在沉重的生活里找到一丝自我创造的乐趣,帮助那些有想法但缺手段的人,用更少的时间把脑中蓝图变为现实。我觉得,这才是最酷的事,就像科技为我们打开了一扇通往美好未来的大门,让我们一起期待吧😘。