MetaがあらゆるコンテンツをセグメントできるSAM 2モデルを発表、ビデオ編集と混合現実をサポート

人工知能の最前線で、Meta社が再び大きな注目を集めています。同社が最新リリースしたSegment Anything Model 2(SAM 2)は、画像やビデオ内の対象物体のピクセルを識別できる世界初の統一モデルとなりました。この画期的な技術進歩は、あらゆる物体をセグメントできるだけでなく、ビデオのすべてのフレームでそれをリアルタイムで追跡することができ、ビデオ編集と混合現実体験に新たな可能性を開きました。

 

画像からビデオへ、SAM 2の全面的な進化

画像セグメンテーション、つまり画像内のどのピクセルがどの物体に属するかを識別することは、多くの科学分析や画像編集タスクの中心技術です。Meta社が昨年発表した初代Segment Anything Modelは、AI駆動の画像編集ツールのトレンドをリードしました。たとえば、InstagramのBackdropやCutouts機能などです。また、SAMは科学、医療などの多くの分野で深遠な影響を与え、広範な応用範囲を持っています。たとえば、海洋科学におけるソナー画像のセグメンテーションや、衛星画像解析による災害救助、医療分野での皮膚癌検出などに活用されています。

現在、Meta社はこの技術をさらに拡張し、その適用範囲を画像からビデオへと広げました。SAM 2は、画像やビデオ内のあらゆる物体をセグメントできるだけでなく、ビデオのすべてのフレームでそれをリアルタイムで追跡できます。これに対し、既存のモデルはビデオセグメンテーションにおいて十分なパフォーマンスを発揮できていませんでした。なぜなら、ビデオ内の物体は移動速度が速く、外観が変化し、他の物体やシーンの一部によって隠される可能性があるからです。Meta社はSAM 2の開発過程でこれらの課題を解決し、ビデオセグメンテーションの複雑さに対応できるようにしました。

 

新たな可能性を開き、さまざまな分野でのイノベーションを支援

SAM 2の発表は、ビデオ編集や生成がより簡単になることを意味し、また混合現実体験にさらなるイノベーションの可能性をもたらします。この技術は、ビデオ内で対象物体を追跡し、特に自動運転車両などの分野で使用されるコンピュータビジョンシステムの訓練プロセスを加速させることができます。さらに、SAM 2は、リアルタイムまたはライブビデオ内での物体選択やインタラクションに対して、よりクリエイティブなスペースを提供します。

オープンサイエンスの理念を守り、Meta社はSAM 2に関する研究成果を公開し、AIコミュニティがさらに多くの能力や応用シナリオを探求できるようにしています。この技術は、さまざまな分野でのイノベーションを促進し、ビデオ編集と混合現実の未来に新たな驚きをもたらすことでしょう。

オリジナル記事、著者:AIの番人,転載の際には、出典を明記してください:https://nipponai.jp/article/meta-sam-2/

(0)
AIの番人AIの番人
上一篇 2024-08-01 13:02
下一篇 2024-08-02 09:10

関連推薦