Tiongkok Perkenalkan Multimoda Satukan Video, Visual dan Teks

25 October 2024, 09:04 WIB

Beijing, Bolong.id - Akademi Kecerdasan Buatan Beijing (BAAI) merilis Emu3, sebuah model dunia multimoda yang menyatukan pemahaman dan pembuatan modalitas teks, gambar, dan video dengan prediksi token berikutnya.

Dilansir dari 华尔街见闻 Kamis (24/10/24), Emu3 berhasil memvalidasi bahwa prediksi token berikutnya dapat berfungsi sebagai paradigma yang kuat untuk model multimoda, yang melampaui model bahasa dan memberikan kinerja canggih di seluruh tugas multimoda, kata Wang Zhongyuan, direktur BAAI, dalam siaran pers.

"Dengan membuat token gambar, teks, dan video ke dalam ruang diskrit, kami melatih satu transformator dari awal pada campuran sekuens multimoda," kata Wang, seraya menambahkan bahwa Emu3 menghilangkan kebutuhan akan pendekatan difusi atau komposisi sepenuhnya.

Emu3 mengungguli beberapa model khusus tugas yang mapan dalam tugas pembuatan dan persepsi, menurut BAAI, yang telah membuka sumber teknologi dan model utama Emu3 bagi komunitas teknologi internasional.

Para praktisi teknologi mengatakan bahwa peluang baru telah muncul untuk mengeksplorasi multimodalitas melalui arsitektur terpadu, yang menghilangkan kebutuhan untuk menggabungkan model difusi yang kompleks dengan model bahasa besar (LLM).

"Di masa mendatang, model dunia multimoda akan mendorong penerapan skenario seperti otak robot, pengemudian otonom, dialog dan inferensi multimoda," kata Wang. (*)

Informasi Seputar Tiongkok

BACA JUGA

Translate by
Megawati Putri

Writer by
Lupita

Tiongkok Perkenalkan Multimoda Satukan Video, Visual dan Teks

Rekomendasi

Administrasi Keimigrasian Tiongkok …

Pengembangan Pengobatan …

Maskapai China Southern Airlines …

ByteDance Pertimbangkan Daftarkan …

Inilah Isi 8 Kesepakatan Indonesia-…

Beijing Kecam AS Karena Rekayasa …

12 Juta Vaksin AstraZeneca Tiba di …

Hong Kong Akan Bebas Karantina …

Bangladesh Bersiap Rayakan Tahun …

China Ubah Gurun Kubuqi Jadi Panel …