シンガポール、2025年7月11日 /PRNewswire/ -- 7月9日のニュースによると、シンガポールのAI企業Skywork AIは、マルチモーダル推論モデル「Skywork-R1V 3.0」をオープンソースとして公開しました。これはパラメータ数38Bの、同社史上最も強力なマルチモーダル推論モデルであり、複数のマルチモーダル推論ベンチマークにおいて、オープンソース最高(SOTA)の性能を記録しています。
科学、工学から医学、芸術に至るまで包括的な知性を実現するために、クロスモーダル推論と学際的な一般化を結び付ける
Skywork-R1V 3.0は、Skywork AIのマルチモーダルモデルシステムの主要ノードであり、中核を成す基盤です。深層推論機能を様々な分野に汎用化し、優れたクロスドメイン推論能力を発揮します。数学や物理学といった従来の科学技術推論タスクだけでなく、地理、歴史、人文科学、医学、芸術、ビジネス、工学といった分野でも優れたパフォーマンスを発揮します。
権威ある包括的なマルチモーダル評価においてMMMUSkywork-R1V 3.0は76.0オープンソースモデルの最高スコアは、Claude-3.7-Sonnet(75.0)やGPT-4.5(74.4)などのクローズドソースモデルを上回り、人間のジュニアエキスパート(76.2)のレベルに近づきました。
Skywork-R1V 3.0 は、他の重要な多分野にわたる評価ベンチマークでも優れたパフォーマンスを発揮しました。
より難しい視覚的推論ではEMMA-Mini(CoT)オープンソースの最先端40.3これは、Qwen2.5-VL-72B-Instruct や InternVL3-78Bなどの大型モデルを上回り、クローズドソース モデル Claude-3.7-Sonnet との差を縮めます。
小中学校の知識ポイントを網羅MMK12R1V 3.078.5Qwen2.5-VL-72B-Instruct、InternVL3-78Bなどのオープンソース モデルや、GPT-4.5、GPT-4o などのクローズド ソース モデルを凌駕し、再びオープンソース陣営をリードしています。
Skywork-R1V 3.0 は、前世代モデルと比較して、物理学や論理などの複数の主要領域で大幅なパフォーマンスの向上を実現し、現在のオープンソース分野で最も強力なマルチモーダル推論モデルの 1 つになりました。
Skywork-R1Vの研究開発チームは、Skywork-R1V 3.0のクロスモーダルかつ学際的な機能により、医療分野や教育分野における幅広い応用の可能性を秘めていると述べています。例えば、医療分野では、医用画像、医療記録、患者との会話を統合することで、より正確な診断提案を提供することができ、教育分野では、パーソナライズされた学習やインテリジェントな個別指導を提供することができます。
コールドスタート+GRPO強化学習は低コストかつ高効率で推論能力を刺激する
同時に、単一次元のモデルの限界を打ち破り、人間の認知推論プロセスに近い、より包括的なマルチモーダル推論モデルを構築することも、Skywork AI の研究チームにとって大きな課題となっています。
Skywork-R1Vの研究開発チームは、Skywork-R1V 3.0のクロスモーダル推論と分野横断的な一般化能力の向上には、2つの重要な要素があると述べています。1つは、クロスモーダル融合メカニズムがより洗練され、より効果的になったこと、もう1つは、強化学習手法を活用することで、一部のクローズドソースの巨大モデルに匹敵、あるいは凌駕する一般化推論能力を実現したことです。
具体的には、Skywork-R1V 研究開発チームは、強化学習 GRPO 戦略、主要なエントロピー駆動型モデル識別メカニズム、コネクタの微調整、および多分野にわたる知識修正の複合効果により、モデル推論パフォーマンスと推論効率の二重の改善を達成しました。
Skywork-R1V 3.0は、前世代モデルであるSkywork-R1V 2.0の抽出データに基づいて「コールドスタート」され、その後、強化学習アルゴリズムGRPOが導入されました。これにより、モデルの推論能力が深化され、画像とテキストのモダリティ間での推論機能の移行が実現され、クロスモーダルおよび多分野シナリオにおける理解と分析のパフォーマンスが向上しました。最終的に、約12,000個の教師あり微調整サンプルと13,000個の強化学習サンプルを用いて学習されました。
モデルの推論能力の一般化を強化するために、研究者らは、主要な推論ノード(「待機...」、「または...」など)に入るときにモデルの出力エントロピーの変化を監視する、主要なエントロピー駆動型モデル識別メカニズムを採用しました。
この背景にある考察は、推論機能を持つモデルはこれらの箇所でより高い不確実性を出力するのに対し、推論のトーンを模倣するだけのモデルはエントロピーが低く決定論的な内容を出力することを研究者らが発見したというものです。これに基づき、研究者らは決定論的なチェックポイントを提案し、推論機能を持つ重み付けされたバージョンを除外しました。
Skywork-R1V 3.0は、より高度な機能を備えています。10,000件の高品質、多分野、マルチモーダルなサンプルに基づいてコネクタを再学習することで、異なる分野の知識の統合を最適化し、分野横断的な推論機能を備えています。
同時に、Skywork AI はクロスモーダルコネクタの特別な微調整も実施し、視覚モダリティによって提供される詳細情報が推論チェーン全体にわたって明確かつ安定した貢献を維持し続けることができるようにすることで、深い推論シナリオにおける Skywork-R1V 3.0 の視覚認識の精度と安定性を確保し、マルチモーダルモデルの推論チェーンが長すぎる場合に視覚情報が薄められ、幻覚が発生するリスクに対処します。
大規模な事前学習をゼロから行うことでマルチモーダル推論能力を強化するという技術的な方法とは異なり、Skywork AIはモデルの学習後段階に焦点を当てています。高度な強化学習戦略を用いることで、低コストでモデルの潜在的な推論能力を刺激し、パフォーマンスの飛躍的な向上を実現します。。研究開発チームは、学習後の強化学習は、大規模な事前学習の潜在能力を具体的に活性化し、深化させることができると述べています。同時に、この小規模で高品質なデータ駆動型強化学習は、より経済的で効率的であり、迅速な反復とモデル能力の正確な調整に適しています。
Skywork-R1V 3.0 は、より低コストかつより高い効率でマルチモーダル モデル推論の可能性を刺激するために、AGI を探索するプロセスにおいて Skywork AI が提案した効果的なパスです。
Skywork R1V 3.0の誕生は、Skywork AIのマルチモーダルインテリジェンスの進化における新たな飛躍を象徴しています。これは、汎用人工知能(AGI)の実現におけるクロスモーダル推論能力の重要な価値を証明するだけでなく、業界に、より低コストかつ高効率でマルチモーダルモデルの推論ポテンシャルを刺激する新たなパラダイムを提供します。
Skywork-R1V 3.0ダウンロード:
HuggingFace住所:
https://huggingface.co/Skywork/Skywork-R1V3-38B
GitHubアドレス:
https://github.com/SkyworkAI/Skywork-R1V
さらに、Skywork は 5 月に世界初のディープ リサーチ AI ワークスペース エージェントをリリースしました。これは、次の Web サイトから体験できます。 スカイワーク
メディア連絡先
会社名:Skywork AI PTE.LTD.
担当者: ピーター・ティアン
メールアドレス:peter@skywork.ai
州: サイエンスパークドライブ2番地
国: シンガポール
Webサイト:skywork.ai
View original content to download multimedia:https://www.prnewswire.com/jp/news-releases/skywork-ai--skywork-r1v-3-0-mmmu--76-openai--anthropic--302503199.html
SOURCE Skywork AI pte ltd