9月24日、バイトダンス傘下の火山エンジンは深圳で開催されたAIイノベーション巡回展において、「PixelDance」と「Seaweed」の2つの豆包動画生成モデルを正式発表しました。これにより、バイトダンスは企業向けの動画生成市場への参入を果たし、特に多主体のインタラクションやカメラ切り替えの一貫性など、これまでの課題に大きな技術的ブレークスルーをもたらしました。
豆包動画生成モデル:多主体インタラクションの技術的な壁を突破
今回の発表会では、火山エンジンが展示した豆包動画生成モデルの驚異的なパフォーマンスが披露されました。複雑な意味理解や多主体の動きのスムーズなインタラクション、さらにはカメラの切り替え時におけるコンテンツの一貫性まで、豆包動画生成モデルは業界最高水準に達しています。火山エンジンの総裁である譚待(タン・ダイ)は、「動画生成には多くの課題があり、豆包の2つのモデルはこれからも進化を続け、AI動画の創作領域をさらに広げていく」と述べました。
従来の動画生成モデルがシンプルな指示しか処理できなかったのに対し、豆包動画生成モデルは連続的かつ自然な複数のカメラアングルと多主体のインタラクションを実現しています。初めてモデルを体験したクリエイターたちは、この生成された動画が複雑な指示にも対応し、異なるキャラクター同士のアクションがスムーズに連携していると驚嘆しました。また、人物の外見や服装のディテール、さらには頭飾りまでが異なるカメラアングルでも一貫して保たれ、実写に近い仕上がりとなっています。
技術革新:DiTアーキテクチャと拡散モデルの完璧な融合
豆包動画生成モデルの技術的基盤はDiTアーキテクチャにあります。効率的な融合計算ユニットを通じて、動画生成過程でカメラワークが自由に切り替わり、ズーム、パニング、ターゲット追尾など多様なカメラ言語が使用可能です。さらに、新しい拡散モデルのトレーニング手法によって、カメラの切り替え時にも主体やスタイル、雰囲気の一貫性が保たれるようになり、これは豆包モデルの独自の技術革新といえます。
火山エンジンの「剪映(ジェンイン)」や「即夢AI」などの実務シーンでの最適化により、豆包動画生成モデルは優れた光と影の配置、色彩の調整を実現し、ビジュアルの美しさとリアルさを兼ね備えています。さらに、強化されたTransformer構造により、3Dアニメーション、2Dアニメーション、国画、白黒、厚塗りなど、多様なスタイルをサポートし、映画、テレビ、PC、スマートフォンなど、さまざまなデバイスに適応できる汎用性を備えています。
AIクリエイティブの未来:豆包大規模モデルが全面サポート
今回のイベントでは、豆包の動画生成モデルだけでなく、豆包音楽モデルや同時通訳モデルも発表され、言語、音声、画像、動画といった全モーダルに対応し、企業の多様なビジネスシーンに応えます。豆包大規模モデルの利用量は急速に増加しており、火山エンジンによると、9月時点で豆包言語モデルの日平均トークン使用量は1.3兆を超え、5月の初公開時から10倍に成長しました。
豆包大規模モデルの高性能と高並列処理能力は、企業のAIアプリケーションで際立っています。業界の他のモデルが1分間あたりのトークン数(TPM)が100K~300K程度であるのに対し、豆包モデルは初期設定で800Kをサポートし、企業のニーズに応じて柔軟にスケーリングが可能です。
未来への歩み:大規模モデルの革新とブレークスルー
譚待氏は、コストのハードルが徐々に下がる中で、大規模モデルの次のステージは「性能とサービスの競争」になると述べています。豆包大規模モデルの登場は、クリエイターにとってよりインテリジェントで充実した創作ツールを提供するだけでなく、さまざまな業界のビジネスシーンにおいて効率的で柔軟なAIソリューションを提供します。
今後、豆包動画生成モデルの公開が進むにつれ、AIとクリエイターがさらに深くコラボレーションし、動画生成分野における新たな可能性を切り開いていくでしょう。豆包大規模モデルの登場は、AI動画クリエイションの新しい時代の幕開けを告げるものです。
今回の発表を通じて、バイトダンスはAI技術の分野での強力な基盤と卓越したイノベーション能力を改めて示しました。豆包動画生成モデルの誕生は、多主体インタラクションの技術的課題を解決し、企業やクリエイターにこれまでにない創作の自由と応用シーンを提供します。このAI動画革命は、まだ始まったばかりです。
オリジナル記事、著者:AIの番人,転載の際には、出典を明記してください:https://nipponai.jp/article/ai-video-bytedance/