Beijing, Bolong.id - Akademi Kecerdasan Buatan Beijing (BAAI) merilis Emu3, sebuah model dunia multimoda yang menyatukan pemahaman dan pembuatan modalitas teks, gambar, dan video dengan prediksi token berikutnya.
Dilansir dari 华尔街见闻 Kamis (24/10/24), Emu3 berhasil memvalidasi bahwa prediksi token berikutnya dapat berfungsi sebagai paradigma yang kuat untuk model multimoda, yang melampaui model bahasa dan memberikan kinerja canggih di seluruh tugas multimoda, kata Wang Zhongyuan, direktur BAAI, dalam siaran pers.
"Dengan membuat token gambar, teks, dan video ke dalam ruang diskrit, kami melatih satu transformator dari awal pada campuran sekuens multimoda," kata Wang, seraya menambahkan bahwa Emu3 menghilangkan kebutuhan akan pendekatan difusi atau komposisi sepenuhnya.
Emu3 mengungguli beberapa model khusus tugas yang mapan dalam tugas pembuatan dan persepsi, menurut BAAI, yang telah membuka sumber teknologi dan model utama Emu3 bagi komunitas teknologi internasional.
Para praktisi teknologi mengatakan bahwa peluang baru telah muncul untuk mengeksplorasi multimodalitas melalui arsitektur terpadu, yang menghilangkan kebutuhan untuk menggabungkan model difusi yang kompleks dengan model bahasa besar (LLM).
"Di masa mendatang, model dunia multimoda akan mendorong penerapan skenario seperti otak robot, pengemudian otonom, dialog dan inferensi multimoda," kata Wang. (*)
Informasi Seputar Tiongkok
Advertisement