2025-03-21 00:39:16
3月,李彦宏在人民网上发表了一篇署名文章★,其中就提到了原生与非原生多模态大模型的区别——原先,所谓的“多模态模型★★★”,只是几个单模态模型训练后再进行拼接;而原生多模态大模型,胜在以统一的架构★★★,去实现对复杂世界的统一理解。
发新模型,必然面临质疑,要被拿去在显微镜下和 Deepseek 作比较★★,在冷眼下遭遇批判★★;
作为百度新一代的原生多模态大模型,文心 4.5 首先是在多模态的能力上进一步升级★。今天的文心 4★★.5,不仅可以理解照片、工作图表、视频内容,准确摘取静态、动态图像中的细节信息;甚至还能理解网络笑话、梗图中的幽默和讽刺,并连贯地完成推理。
当大模型能力越来越卷、用户标准越来越高,模型之间最细微的差距★★★,就决定了实际生成结果在体验上的天差地别——原生和非原生的区别★★,也由此显现★。
不发新模型★★★,百度的技术实力更没了展现的机会★★,无端的猜测又会甚嚣尘上,客户的信心也会被损伤★★。
进退维谷★,百度的选择,是亮出宝剑,非要试一试自己的成色——即使面临批评和贬损,百度也决心放下面子,把自己最新的模型成果展示出来。
而文心 4.5,则是在多模态异构专家扩展技术上更进一步,就如同根据图像、视频★★、文字等不同领域,给智囊团请来了一群术业有专攻的“专家”★,并且通过一套自适应模态感知损失函数★,让“专家★★★”们可以实力相当,也就更能完成协作,执行复杂跨模态任务的处理。
多模态能力之外,针对大模型不少老生常谈的技术难关★★,百度在文心 4.5 也交上了这一期的
“前 Deepseek 时代★”★★,圈里不少人还悲观地认为★★★,中国没有模型能跟上 GPT 的脚步,对百度来说★★★,模型不掉队,应用生态做起来★,就能够留在牌桌上★★;
而 Deepseek 一出★,风云变幻、谁与争锋——原本,文心 4★★.0 在国内也算数得上号的大模型,在 Deepseek 面前★,也不得不甘拜下风。
预训练阶段更深层次的模态融合★★、专为跨模态交互和理解设计的模型机制,都是原生多模态模型的优势。