Dari EPFL model multimodal baru untuk AI yang lebih fleksibel

Ia dapat belajar dari teks, gambar, video dan suara dan, berkat modularitas, menghasilkan sejumlah atau kombinasi prediksi

Pembelajaran Mesin: model multimodal baru untuk AI yang lebih fleksibel dari EPFL
Dari EPFL, model multimodal baru untuk AI yang lebih fleksibel (Foto: Brian Penny/Pixabay)

Baik kita berbicara tentang OpenAI atau ChatGPT, sebagian besar chatbot kecerdasan buatan generatif didasarkan pada apa yang disebut Model Bahasa Besar (LLM), model belajar mendalam dalam skala besar dilatih untuk memberikan jawaban atas pertanyaan yang diajukan kepada mereka dengan mempelajari informasi melalui teks dalam jumlah besar.

Perbatasan terakhirAI generatif apakah saya model multimoda, yang menggabungkan pemahaman bahasa dan gambar, video dan audio untuk menawarkan pengalaman dan layanan yang lebih canggih.

Namun penciptaannya menghadirkan beberapa tantangan, terutama jika tujuannya adalah untuk membangun model multimoda dalam skala kecil: seringnya adanya data yang hilang karena tidak tersedianya informasi, hampir selalu karena ketersediaan sumber daya yang sebagian.

Singkatnya, risikonya adalah model belajar berdasarkan kekurangan, dan perhitungan serta prediksinya terdistorsi. Dan disinilah EPFL memulai proyek barunya.

Dari Technical University of Lausanne dan Zurich sebuah koalisi untuk energi hijau
Dalam 3D sarung tangan teknologi yang akan membuat Virtual Reality menjadi nyata

Pembelajaran mesin
Kampus Politeknik Federal di Lausanne (Foto: Facebook/EFPL)

MultiModN, model multimodal modular yang lahir di Lausanne

Para peneliti dari PT Politeknik Federal Lausanne (EPFL), salah satu universitas terbaik di dunia dalam bidang teknik dan teknologi informasi, nyatanya telah berkembang MultiModN, model multimodal modular unik yang baru-baru ini dipresentasikan di NeurIPS2023.

Para peneliti dari laboratorium Machine Learning for Education (ML4ED) dan Machine Learning and Optimization (MLO) di Fakultas Ilmu Komputer dan Komunikasi EPFL memutuskan untuk mengembangkan dan menguji kebalikan dari skala besar, namun berpikir dalam skala yang lebih kecil.

Dipimpin oleh guru Mary-Anne Hartley, direktur Laboratorium Teknologi Kesehatan Cerdas Global yang menjadi tuan rumah bersama di MLO dan Fakultas Kedokteran Yale, dan profesor Tanja Kaser, direktur ML4ED, tim menciptakan model multimodal yang dapat belajar dari teks, gambar, video, dan suara tetapi, tidak seperti model yang sudah ada, terdiri dari sejumlah variabel modul yang lebih kecil, otonom dan spesifik masukan.

Yang terakhir dapat dipilih berdasarkan informasi yang tersedia dan kemudian disatukan ke dalam urutan nomor, kombinasi, atau jenis masukan apa pun. Oleh karena itu, ia dapat menghasilkan sejumlah, atau kombinasi, prediksi apa pun.

"Kami mengevaluasi MultiModN di sepuluh kegiatan nyata, termasuk dukungan untuk diagnosis medis, prediksi kinerja akademik, dan prakiraan cuaca,” dia menjelaskan Vinitra Swamy, mahasiswa PhD di ML4ED dan MLO dan rekan penulis pertama proyek ini.

“Melalui eksperimen ini, kami percaya bahwa MultiModN adalah pendekatan pertama yang secara intrinsik dapat ditafsirkan dan tahan terhadap data yang hilang terhadap pemodelan multimodal.".

"Resep" EPFL untuk komputer kuantum yang lebih kuat
Dari Kecerdasan Buatan dorongan yang menentukan untuk cryptocurrency?

Pembelajaran mesin
Sekolah Ilmu Komputer dan Komunikasi EPFL (Foto: Facebook/EPFL IC)

Kasus penggunaan pertama: keputusan klinis untuk tenaga medis

Kasus penggunaan pertama MultiModN adalah sebagai sistem pendukung keputusan klinis untuk tenaga medis di rangkaian terbatas sumber daya.

Faktanya, di sektor layanan kesehatan, data klinis sering kali hilang, mungkin karena terbatasnya sumber daya (pasien tidak mampu melakukan tes tertentu) atau, sebaliknya, karena banyaknya sumber daya dan informasi. MultiModN dapat belajar dari data dunia nyata tanpa menyerap apa yang disebut bias, dan menyesuaikan prediksi dengan kombinasi atau jumlah masukan apa pun.

"Data yang hilang adalah ciri khas dalam konteks terbatas sumber daya, dan saat model mempelajari pola yang hilang ini, mereka dapat mengkodekan kesalahan dalam prediksinya,” dia menunjukkan Mary-Anne Hartley.

“Kebutuhan akan fleksibilitas dalam menghadapi sumber daya yang tidak dapat diprediksi adalah hal yang menginspirasi MultiModN".

Yang paling penting adalah dampak AI dan pembelajaran mesin pada layanan
Semua alasan meningkatnya pengaruh AI dalam seni digital

Pembelajaran mesin
Laboratorium analisis (Foto: Michal Jarmoluk/Pixabay)

Dari laboratorium hingga kehidupan nyata: uji coba terhadap pneumonia dan tuberkulosis sedang dilakukan

Namun publikasi ini hanyalah langkah awal menuju implementasi dan uji lapangan. Profesor Hartley bekerja dengan rekan-rekannya di Rumah Sakit Universitas Lausanne (CHUV) dan Inselspital, Rumah Sakit Universitas Bern, untuk melakukan studi klinis berfokus pada diagnosis pneumonia dan tuberkulosis di rangkaian terbatas sumber daya, dan sedang dalam proses merekrut ribuan pasien Afrika Selatan, Tanzania, Namibia e benin.

Kelompok penelitian melakukan inisiatif pelatihan ekstensif, pengajaran lebih dari 100 dokter untuk mengumpulkan data multimodal secara sistematis termasuk gambar dan video ultrasound, sehingga MultiModN dapat dilatih agar peka terhadap data nyata dari wilayah dengan sumber daya rendah.

“Kami mengumpulkan jenis data multimoda kompleks yang dirancang untuk ditangani oleh MultiModN”, kata dokter Noémie Boillat-Blanco, spesialis penyakit menular di CHUV.

“Kami sangat antusias melihat model yang dapat mengapresiasi kompleksitas sumber daya yang hilang dalam konteks kita dan kurangnya penilaian klinis rutin yang sistematis", tambah dokter Kristina Keitel dari Inselspital, rumah sakit universitas di ibu kota Swiss.

Keamanan AI? Pernyataan Bletchley Park sangat penting
Axel Springer-OpenAI axis untuk AI yang melayani jurnalisme

Inovasi EPFL dirancang untuk meningkatkan pengambilan keputusan klinis dengan menyediakan akses terhadap pengetahuan medis khusus (Foto: Irwan/Unsplash)

Pembelajaran Mesin untuk melayani kepentingan publik

Pengembangan dan pelatihan MultiModN merupakan kelanjutan dari upaya EPFL untuk mengadaptasi alat pembelajaran mesin dengan kenyataan dan demi kepentingan publik, dan dilakukan segera setelah peluncuran Meditron, model kecerdasan buatan yang dirancang khusus untuk sektor medis.

Meditron juga termasuk dalam kategori Model Bahasa Besar (LLM), tetapi tidak seperti model generalis, yang melayani berbagai tugas, Meditron berfokus pada bidang medis, dan lebih ringkas dari segi ukurannya, namun sama efektifnya.

Tujuan Meditron adalah untuk demokratisasi akses terhadap informasi medis berkualitas tinggi, sehingga membantu keputusan klinis.

Peneliti EPFL mengembangkan dua versi dengan masing-masing 7 miliar dan 70 miliar parameter, dan model tersebut dilatih berdasarkan sumber data medis terpilih dan berkualitas tinggi, termasuk literatur ilmiah yang ditinjau oleh rekan sejawat dan berbagai pedoman klinis, untuk memastikan basis pengetahuan yang luas dan akurat.

Oleh karena itu, Meditron, yang dipresentasikan pada November 2023, dan MultiModN sejalan dengan misi Pusat AI baru EPFL, yang berfokus pada bagaimana kecerdasan buatan yang bertanggung jawab dan efektif dapat mendorong inovasi teknologi demi kepentingan semua sektor masyarakat.

Sensor revolusioner yang dapat menghemat jutaan baterai
AI: perang yang akan pecah tidak akan seperti yang kita harapkan…

Pembelajaran Mesin: model multimodal baru untuk AI yang lebih fleksibel dari EPFL
Bagian luar kampus EPFL dengan logo Politeknik Federal Lausanne (Foto: Facebook/EFPL IC)