​首个多模态模型来了!还是直接放出磁力链接

机器之心报道

编辑:Panda

训练完就直接上模型。

我们都知道,Mistral团队向来「人狠话不多」。昨天下午,他们又又又丢出了一个不带任何注解的磁力链接。

解析一下这个链接,可以看到大小共23.64GB,其中包含4个文件,其中最大的文件是一个封装的多模态大模型。

动作快的非官方Mistral社区已经将该模型上传到了HuggingFace。

这一发布引来如潮好评,有人将其与近日经常出现在话题热榜中的Reflection模型做了对比,更是尽显Mistral团队踏实做事的风格:

Pixtral12B的规格和性能

该模型的名字为pixtral-12b-240910,从名字也能看出,该模型的参数量为12B。

其中params.jsom列出了该模型的相关参数:

可以看到,该模型有一个视觉编码器,其支持1024×1024大小的图像,有24个隐藏层,支持高级图像处理。

该模型的层数为40、隐藏维度大小为14,336,注意力头有32个。

此外,Pixtral12B的词汇库有131,072个不同的token,可以说相当庞大,因此能实现非常细腻的语言理解和生成。

从这些参数和配置也能看出,Pixtral12B至少有能力处理文本和图像数据,实现多模态处理。

Pixtral12B的发布广受好评,这是因为人们一直在期待开放模型社区也能获得好用易用的多模态模型。Mistral这条磁力链接将我们向这个方向推进了一步。

不过由于该模型才刚发布,其效果究竟如何还尚未可知,但好在我们也不是完全没有线索。就在昨天,Mistral低调地举办了一场峰会MistralAISummit,演讲者包括MistralCEOArthurMensch以及英伟达CEO黄仁勋等。

几位参与者在社交网络上分享了一些现场照片,让我们可以一窥Pixtral模型的性能。

在这张幻灯片中,我们可以看到Pixtral12B支持任意大小的图像和128k的上下文窗口。另外,该模型也能处理同时包含文本和图像的大型文档。

具体性能指标上,Pixtral12B的表现虽不及GPT-4o和Claude-3.5Sonnet,但在各基准上全面胜过了Claude-3Haiku和Gemini-1.58B。

而在几个开放多模态模型中,Pixtral在大多数基准上都表现最佳,仅在DocVQA上略低于Qwen27B。

Mistral展示了Pixtral的一些具体应用案例。

通过OCR将包含数学公式的科学文章图片转录成Markdown格式?毫无压力!

识别潦草的手写内容,也不在话下。

提取图片信息和描述图像内容?这已经算是多模态模型的基本能力,那就更无问题了。

不仅如此,Pixtral还能理解更加复杂的图像,并从中提取出关键信息和见解:

Pixtral也具备非常出色的解释和推理能力。具体指标上,Pixtral12B在MMMU和MathVista上的多模态知识和推理性能均领先其它参与对比的模型(主要是开放模型,并没有GPT-4o和Claude-3.5Sonnet)。多模态问答性能也表现卓越,处于领先位置。

多模态指令遵从以及文本理解能力都表现不错,在某些指标上仅略逊于Claude-2Haiku。

比如它能根据DNA图像分析出该图像是在解释DNA的结构(相信这个能力很适合用于学习新知识):

也能基于手绘的潦草网页设计草稿推理生成HTML代码:

拍一拍考试卷让其解答数学选择题,也轻轻松松就能完成:

至于Pixtral是否支持视频,Mistral在问答环节分享说他们还未测试过视频帧,但已经尝试过PFF(点特征融合),并且他们表示Pixtral「128k的上下文应该能处理视频」。此外,Pixtral也能泛化用于卫星图像。

至于如何使用Pixtral12B,如果你的硬件性能足够,当然可以自己部署;但Mistral的开发者关系负责人SophiaYang也表示,未来会通过Mistral的LeChat和LaPlatforme提供该模型。

Mistral的愿景:让AI好用且有用

根据网友们分享的消息,在MistralAISummit上,该公司分享了他们的愿景。

他们认为,要让AI有用,最关键的其实是系统问题。

但对不懂相关技术的普通用户来说,这个系统显得非常复杂。Mistral想做的就是简化用户的使用流程,降低用户的使用成本。他们想把复杂的技术部分都整合进LaPlatforme,​首个多模态模型来了!还是直接放出磁力链接让用户只需进行简单的配置就能享受AI带来的便利和效率。

此外,为了让AI有能力解决复杂问题,将用户交互用于AI模型的持续训练是很有必要的。同时还需要持续地将新软件整合进AI的工具箱,提升其能力。

目前,Mistral的模型矩阵中已经包含了用于通用任务和科研任务的多种免费模型。

另外,该公司还为编程任务开发了Codestral模型,支持80多种编程语言并且性能优秀。不过需要指出,虽然Mistral允许研究者基于研究和测试目的免费使用Codestral,但若想将其投入商业应用,则需要向其购买商用权限——这也算是该公司为数不多的盈利项目之一。

今年6月份,Mistral以60亿美元的估值获得了6.4亿美元投资,之后不久便发布了该公司的旗舰模型MistralLarge2。

MistralLarge2的参数量为123B,支持多语言和函数调用,具备强大的推理和代码能力,整体性能虽不及当前最佳的GPT-4o和Claude-3.5Sonnet,但却超过了405B参数的Llama3.1。同样,MistralLarge2也免费开放给非商业用途。

Mistral团队绝对算是AI模型开发领域的一股清流。在AI领域普遍关注营销宣传的如今,Mistral的Twitter虽有10万关注者却并未关注任何一个人,其仅有的10条推文也几乎都是在发布新模型,其CEOArthurMensch的个人账户也毫不活跃。

MistralAI成立于2023年5月,是一家法国人工智能初创公司,也是为数不多来自欧洲的大模型开源领域的明星团队。一个有趣的小知识是因为该公司来自法国,所以LeChat的意思其实就是「猫」,这也是其Logo之所以像一只猫的原因。

MistralAI曾在2023年6月获得了创纪录的1.18亿美元种子轮融资(据称是欧洲历史上最大的种子轮融资)。当然,这个纪录在前些天已经被IlyaSutskever创立的SafeSuperintelligenceInc.打破。

参考链接:

https://x.com/MistralAI/status/1833758285167722836

https://x.com/swyx/status/1833926630861070359

免责声明:本网站部分内容由用户自行上传,若侵犯了您的权益,请联系我们处理,谢谢!联系QQ:无敌椰子

分享:

扫一扫在手机阅读、分享本文