这项由香港理工大学研究团队完成的研究,以预印本形式发布于2026年6月8日,论文编号为arXiv:2606.09585,感兴趣的读者可通过该编号查阅原始论文。 人类用语言思考已经司空见惯,但如果有一天,AI不再用文字"想问题",而是直接用图片来推理呢 ...
A:光学推理把推理步骤变成图片,而不是一长串文字。这样做最直接的好处是节省令牌——在香港理工大学的实验中,语言任务平均节省了28.57%的令牌,多模态任务节省16%,整体令牌效率是文字推理的近两倍。同时,准确率不仅没有明显下降,在很多场景下还持平甚至提升了。对多模态任务来说,图形版光学推理还能把文字和图形元素整合在同一张"画布"上,这是纯文字推理做不到的。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果