Copyright 2013-2025 今日媒體網 版權所有 京ICP備13154207號-1
今天,百度智能云千帆正式推出全新視覺理解模型——Qianfan-VL,并全面開源!
該系列包含3B、8B和70B三個尺寸版本,是面向企業級多模態應用場景,進行了深度優化的視覺理解大模型。Qianfan-VL不僅具備出色的基礎通用能力,還針對產業落地中的高頻需求,如OCR和教育垂直場景做了專項強化,使其在實際應用中表現更加卓越。
Qianfan-VL系列模型是由百度智能云千帆模型研發團隊,基于開源模型進行開發,并在百度自研昆侖芯P800上完成全流程計算任務。昆侖芯P800提供了強大的算力支撐,確保模型能夠高效處理海量數據與復雜算法,同時支持單任務5000卡規模的并行計算。這一結合不僅優化了模型計算的效率,更使得模型在性能表現上達到了新的高度,在通用和垂類任務評測中展現出SOTA水平。
Qianfan-VL模型具備三大特點:
- 多尺寸模型滿足不同場景需求:提供3B、8B、70B三種規格的模型,讓不同規模的企業和開發者都能找到合適的解決方案。
- 提供思考推理能力:8B和70B模型支持通過特殊token激活思維鏈能力,覆蓋復雜圖表理解、視覺推理、數學解題等多種場景。
- OCR與文檔理解能力增強:主打OCR全場景識別和復雜版面文檔理解兩大特色能力,在多項基準測試中表現優異,為企業級應用提供高精度的視覺理解解決方案。
模型性能與效果
通用能力基準測試表現
在通用能力基準測試中,Qianfan-VL 系列模型(3B、8B、70B)展現出顯著核心優勢。
從視覺理解到專業領域問答,模型性能隨參數規模增大提升顯著,體現出很好的Scaling趨勢。在ScienceQA等專業問答測試中,精準度表現突出;多模態任務如RefCOCO等,物體識別與關聯能力優異;同時,在各類通用基準測試里,相較主流模型,整體表現也頗為亮眼,充分彰顯出在視覺理解通用能力上的出色實力,為不同場景下的智能應用提供了有力支撐。
