原文来源:硅基立场
作者|骆轶航
图片来源:由无界 AI生成
这是我体验过的第一个由智能手机厂商自主研发的大语言模型——vivo推出的基于蓝心大模型的“蓝心小V”。作为“大模型神农”,我最近测试任何一个模型服务之前都会提醒自己“降低预期”,特别是对那些视频拍得过于酷炫的demo。但对蓝心大模型,我的感觉是:合乎预期。它不算酷炫,但还算实用。
作为智能手机厂商推出的大语言模型,人们通常认为它不会太大,参数较低,涌现效果可能不会太出色,理解一些复杂文本和意图会出bug。但我从蓝心大模型中得到的体验是相反的:它展现了创作和总结方面强大的推理能力,可以达到80分以上,反倒是在基础的搜图和常规写作等方面的表现中乘。
要知道,目前vivo X100系列手机上搭载的蓝心大模型是专门面向手机打造的端侧场景和云端两用模型,远没有千亿级参数的大模型那么“大”。但当我丢给它一篇关于大模型的涌现现象是否真实存在的文章时,它十分精准地找到了里面最关键最核心的那个论点:大模型涌现能力产生是研究者选择的度量标准而并非模型能力扩展的结果,所以并不是真正的“智能涌现”。
这确实有点让我震撼。因为“读文档”对大语言模型来说,是一个有些难度系数的工作,不是哪个模型都读得好的。比如ChatGPT近期阅读复杂冗长PDF文件的能力就发生了惊人的退化,尤其是在概括力上。但蓝心大模型的蓝心小V能一下子找到最关键的论点。值得一提的是,在测试的时候,我特别勾选的是“本地总结”的功能,完全在用这台vivo X100机器自身的算力(联发科天玑9300)和推理能力进行总结,它某种程度上打破了“大模型必须得大”的固有认知。
接着,我发现了一个更有意思的现象:当你把一篇更长的论文上传给蓝心大模型之后,它依然能提炼出最关键和最重要的观点和发现,但延展叙述往往草率几句话了事,“好读书而不求甚解”。它与一些其它的大模型Chat Bot在阅读理解能力上形成了反差:很多模型拆解信息能力强,提炼概括能力不够。蓝心大模型是概括提炼得无比精准,但不愿意拆解细读,不愿意浪费token在解释问题上,这应该是跟模型大小密切相关的。
在手机本地的照片搜索、影像查找方面,蓝心大模型的响应速度堪称丝般顺滑,比如在一秒之内找到手机本地存储的所有“关于故宫的照片”。在旅游攻略书写等方面,它的表现中规中矩。在图像创作上,它画的故宫、牛肉拉面、麻辣香锅都能接近ChatGPT的DALL-E的水准,但在想象力上不如ChatGPT丰富,画不出特别疯狂开脑洞的图来。不过,在我让它画“一个AI深沉地思考人类的未来”的时候,它竟然给了我一张有着如此这般意境的图片。
此外,蓝心大模型通过自然对话操控APP的能力是显著的。我跟它说我想点麻辣香锅的外卖,它会告诉你这台新手机上没有安装美团,当你同意它安装之后,它会到应用商店自动下载美团APP。然后,帮你打开到都是“麻辣香锅”的页面。当然你可以认为,苹果Siri也做的到,因为作为系统底层助手级应用,调取这部手机上的权限是轻而易举的。但区别是,Siri只能接受非常清晰的指令来打开哪个app,面对一个笼统的自然语言需求是无能为力的,它是一个嵌入式的智能语音模块,但蓝心小V在蓝心大模型的加持下,已经算是一个有自然语言理解能力的Copilot了。
总之,几个关键功能调教下来,你会有一个比较确信的方向和判断,那就是端侧大模型这件事是成立的,是靠谱的。而且,端侧大模型甚至整个大语言模型落地到千家万户和芸芸众生,可能还是得靠手机厂商,无论你愿意不愿意。
某种程度上,适配手机的大模型其实更接近微软最近强调的“小语言模型”,它的参数通常不能超过100亿,否则手机内存跑不起来,这也意味着它只能进行特定方面的训练,或把一个模型训练到某种输出程度,然后打住。对于绝大多数人来说,这就足够用了。近期大火的巴黎创业公司Mistral AI,就是这么一家小模型公司。
以蓝心大模型公布的参数看,1700亿参数的云上大模型用于蒸馏训练低参数量级模型,得到70亿参数的模型,把计算和推理同时放在云侧和手机的端侧,而10亿参数模型的计算和推理只在端侧。这也是高通、联发科、英特尔和AMD们为了摆脱英伟达诅咒不断在尝试和捣鼓的。模型不塞进手机和PC里,他们就没机会。但能塞进手机和PC的模型,往往不够大,是小模型。
小模型有小模型的好处:只专注把几件事做好,不做冗长的信息和代码输出,有几个亮点,其它方面则一般。比如Mistral AI,代码写的就是比ChatGPT强。再比如蓝心大模型,提炼和处理本地文档就是比别的模型精准,管理起个人手机里的文档和日程就是更高效。其它画图、写作和搜索也都会,但并不算突出。但这又怎么样呢?
在当下中国讨论生成式人工智能的未来,有一个诡异的现象:高举高打的人不落地,落地生活的人对AI又无感。大部分人是没用过ChatGPT的,对文心一言、通义千问和ChatGLM可能也就是听说过和偶尔一用,看不到这些玩意儿对自己有什么本质的变化。而死磕大模型参数、规模和基准测评结果的这些玩家,所有成果都放在了Hugging Face和GitHub上,几乎从来不面向普通人做推广,对普通人也无感。AI开发者和用户双向无感,这种局面可能短期内是无法改变的。
但如果智能手机厂商做大语言模型,可能就不太一样了。主要的原因是:用户是有感的。当大模型内置在操作系统的底层,可以随时唤起、辅助和调用功能,就像蓝心大模型长在Origin OS4上那样,用户就会不由自主地需要它,需要它的辅助,测试它的潜力,甚至需要它的陪伴。它可能不是一个万能的大模型,可能就是个小模型,但是它懂它的用户,熟悉设备里的数据,了解用户习惯,保护用户的隐私,能帮着排日程、打开外卖菜单、总结文档、挑挑照片,完成一些基础写作,它就是大多数人“够用”和“可信任”的AI了。
推动大语言模型的普及,肯定不是通过AI编程实现的,也不是只有刷新SOTA评估的技术突破才能造福大多数人类。就像鞋子合适不合适,只有穿上了才知道一样,一个模型合适不合适,只有用了才知道。我最近这段时间在有意识地“去ChatGPT化”:阅读论文和文档靠Kimi Chat,案头工作靠文心一言和ChatGLM,个人助手就靠vivo蓝心大模型,不为别的,因为它“合身”。你不期待它综合赶超ChatGPT,但我真的是需要一个手机上能用的,保护个人隐私和数据安全的,各项平均分数还过得去的“大模型”或“小模型”。
大语言模型是用来给人用的,又不是拿来吹牛X的。