通用端到端模型开源拒绝多模态大模型降维打击

  • 通用端到端模型开源,拒绝多模态大模型降维打击

    通用端到端模型开源,拒绝多模态大模型降维打击

    Vary团队投稿凹非寺量子位|公众号QbitAI在AI-2.0时代,OCR模型的研究难道到头了吗!?(OCR:一种将图像中的文字转换为可编辑和可搜索文本的技术)Vary作者团队开源了第一个迈向OCR-2.0的通用端到端模型GOT。用实验结果向人们证明:No~No~No~GOT模型效果如何?话不多说,直接上效果图:△最常用的PDFimage转markdown能力△双栏文本感知能力△自然场景以及细粒度OCR能力△动态分辨率OCR能力△多页OCR能力△更多符号的OCR能力研究团队称,尽管GOT模型表现不错,但也存在一些局...

1