波多野结衣图片 Mistral最新开源数学模子 Mathstral，能弗成算对 9.11 和 9.9谁大？｜AI 鲜测

20 2024-07
波多野结衣图片 Mistral最新开源数学模子 Mathstral，能弗成算对 9.11 和 9.9谁大？｜AI 鲜测

发布日期：2024-07-20 09:12 点击次数：104
波多野结衣图片
作家｜椰子
这几日，AI 圈又一“惊骇”事件！！
不外并不是谁家又推出的新模子有多强，而是包括 GPT-4o、Gemini在内的一系列大模子齐算远隔 9.11 和 9.9 两个数字谁大谁小。
一个最浅陋的比大小的数知识题，居然齐作念远隔，愚蠢的 AI，机灵的东说念主类。
天然，这件事带来的正面反想要比看搅扰的意旨大得多，在指示词优化和模子的相识方面网友们伸开了许多接头。
事情刚过了一天，有着“欧洲 OpenAI”之称的 Mistral，以希腊数学家阿基米德 2311 年生日为名，推出了一款名为Mathstral的模子，专攻数学推理和科学，以考中一个基于Mamba2架构的开源模子——Codestral Mamba（7B），专攻代码生成。
Mistral CEO Arthur Mensch 称这是这家巴黎AI公司对行将在月底召开的巴黎奥运会的献礼。
Mathstral 基于 Mistral 7B 构建，因循的荆棘文窗口长度为32k，解任的开源合同为Apache 2.0 license。
从公布的材干上来看，Mathstral 在初等数学（elementary_mathematics）、高中物理（high_school_physics）和大学物理（college_physics），这些领域回复发扬最佳。在专科管帐（professional_accounting）、好意思国税收策略（us_tax_policy）和东说念主类性学（human_sexuality）这些领域则完满不在行。
Mathstral 在数据集测试中，在具有挑战性的Odyssey Math maj@16和GRE数学测试中发扬最佳。固然在处罚一般数知识题方面略逊于 DeepSeek Math 7B，但在需要深刻推理的贫瘠上展现出了弘大的上风。
此外，Mathstral 在 AMC 和 AIME 竞赛中的发扬也谢绝冷漠，解释了其在处罚竞赛级别数知识题上的后劲。
PS：Qwen2-7B 的数学材干也挺强啊。
险些是第一时辰 Ollma 就上线了对Mathstral的因循。
https://ollama.com/library/mathstral
咱们来试一下 Mathstral是不是确实数学强无敌！波多野结衣图片
1
9.11＞9.9？
第一题即是比大小，限度有点出东说念观念象，在保合手团结指示词的前提下，照旧算错了。
更换了一下指示词规矩，不仅给出了详备且正确的解题想路，况兼谜底亦然对的。
1
上难度题目测试
难度高潮一些，算一齐阿基米德分牛问题（Archimedes' Problema Bovinum）。
固然给出了荒谬长的解题流程，然而最终的谜底照旧不实的。不仅谜底不实，况兼也没能审题。
题干：
太阳神有一牛群，由白、黑、花、棕四种激情的公、母牛构成。
在公牛中，白牛数多于棕牛数，多出之数荒谬于黑牛数的1/2+1/3；黑牛数多于棕牛数，多出之数荒谬于花牛数的1/4+1/5；花牛数多于棕牛数，多出之数荒谬于白牛数的1/6+1/7.
在母牛中，白牛数是整体黑牛数的1/3+1/4；黑牛数是整体花牛数1/4+1/5；花牛数是整体棕牛数的1/5+1/6；棕牛数是整体白牛数的1/6+1/7.
问这牛群是怎样构成的？
谜底：
第四色
荆棘滑动稽查
再算一齐解释题。
题干：
谜底：
荆棘滑动稽查
固然解释的想路和流程是对的，但有许多过剩的操作，既莫得化简式子，也对后续推导莫得匡助。况兼在步调12之后径直专揽柯西不等式，跳过了中间的一些关键步调，使得论证不够严谨。
令东说念主可惜的是，测试了三说念题，错了两说念，第三说念解题还不是那么完好。
初等数学题测试
咱们裁减一些范例，测试一些初等数学题：
已知不等式 3x-a ≤ 0 的正整数解正是 1 ， 2 ， 3 ，则 a 的取值范围是？
Mathstral 给出的解题想路和谜底齐是正确的。
当作一个 7B 领域的模子，Mathstral开箱即用的恶果莫得设想中那么好，关于复杂逻辑的题目会出现审题不清、逻辑出错等问题。
通过Ollama部署的 Mathstral 推理时辰每说念题在2-3秒附近，要是提高推理时辰，可能会有更好的发扬。
在推出 Mathstral 的团结时辰，Mistral.AI也推出了其第一个基于Mamba2架构的开源模子——Codestral Mamba（7B）。
咱们接下来也会对Codestral Mamba有更详备的体验评测波多野结衣图片。

波多野结衣图片 Mistral最新开源数学模子 Mathstral，能弗成算对 9.11 和 9.9谁大？｜AI 鲜测

热点资讯

相关资讯