工業產品多影像屬性值提取首個大規模 benchmark:IndustryBench-MIPU
為何重要
指出目前多模態大模型在開發異質型工業影像技術細節與跨圖證據整合上的關鍵瓶頸。
針對閥門與斷路器等工業產品,研究者推出了首個大型多影像理解 benchmark IndustryBench-MIPU,旨在測試 MLLs 恢復結構化屬性的能力。該資料集包含 4,559 個產品共 27,652 張影像與 103,703 個標註。實測顯示,最佳模型的產品級屬性恢復率僅約 49.9%,且從單圖切換至多圖整合會導致召回率下降 15–34 個百分點。