Från EPFL en ny multimodal modell för mer flexibel AI

Den kan lära sig av text, bilder, video och ljud och, tack vare modularitet, producerar valfritt antal eller kombinationer av förutsägelser

Machine Learning: en ny multimodal modell för mer flexibel AI från EPFL
Från EPFL en ny multimodal modell för mer flexibel AI (Foto: Brian Penny/Pixabay)

Oavsett om vi pratar om OpenAI eller ChatGPT, de allra flesta chatbots generativ artificiell intelligens bygger på den s.k Stor språkmodell (LLM), modeller av djupt lärande i stor skala utbildad för att ge svar på frågor som ställs till dem genom att lära sig information genom stora mängder text.

Den sista gränsen förgenerativ AI är jag multimodala modeller, som kombinerar språkförståelse och bilder, video och ljud för att erbjuda en ännu mer avancerad upplevelse och service.

Deras skapande innebär dock flera utmaningar, särskilt om avsikten är att bygga multimodala modeller i liten skala: den frekventa förekomst av saknade data på grund av otillgänglighet av information, nästan alltid på grund av partiell tillgång på resurser.

Kort sagt är risken att modellen lär sig på grund av brist, och att beräkningarna och förutsägelserna förvrängs. Och det var här EPFL började med sitt nya projekt.

Från tekniska universitetet i Lausanne och Zürich en koalition för grön energi
I 3D den tekniska handsken som kommer att göra Virtual Reality påtaglig

Maskininlärning
Campus för Federal Polytechnic i Lausanne (Foto: Facebook/EFPL)

MultiModN, den modulära multimodala modellen född i Lausanne

Forskarna från Federal Polytechnic i Lausanne (EPFL), ett av de bästa universiteten i världen när det gäller teknik och informationsteknologi, har faktiskt utvecklats MultiModN, en unik modulär multimodal modell som nyligen presenterades på NeurIPS2023.

Forskare från laboratorierna Machine Learning for Education (ML4ED) och Machine Learning and Optimization (MLO) vid EPFLs School of Computer Science and Communication bestämde sig för att utveckla och testa raka motsatsen till en stor, men tänk i mindre skala.

Leds av läraren Mary-Anne Hartley, chef för Laboratory for Global Intelligent Health Technologies som är värd gemensamt vid MLO och Yale School of Medicine, och professor Tanja Käser, chef för ML4ED, skapade teamet en multimodal modell som kan lära av text, bilder, videor och ljud men som, till skillnad från befintliga, består av ett varierande antal mindre moduler, autonom och ingångsspecifik.

Den senare kan väljas baserat på tillgänglig information och sedan sättas ihop till en sekvens av valfritt antal, kombination eller typ av inmatning. Den kan därför producera vilket antal, eller kombination, av förutsägelser som helst.

"Vi utvärderade MultiModN in tio verkliga aktiviteter, inklusive stöd för medicinsk diagnos, akademisk prestationsförutsägelse och väderprognoser, förklarade han Vinitra Swamy, doktorand vid ML4ED och MLO och första medförfattare till projektet.

"Genom dessa experiment tror vi att MultiModN är den första i sig tolkbara och dataresistenta metoden för multimodal modellering".

EPFL:s "recept" för kraftfullare kvantdatorer
Från artificiell intelligens ett avgörande lyft till kryptovalutor?

Maskininlärning
EPFL School of Computer Science and Communication (Foto: Facebook/EPFL IC)

Det första användningsfallet: kliniska beslut för medicinsk personal

Det första användningsfallet av MultiModN kommer att vara som ett stödsystem för kliniska beslut för medicinsk personal i resursbegränsade miljöer.

Inom sjukvården saknas faktiskt ofta kliniska data, kanske på grund av begränsade resurser (en patient har inte råd med ett specifikt test) eller omvänt på grund av ett överflöd av resurser och information. MultiModN kan lära av denna verkliga data utan att absorbera dess så kallade fördomar och att anpassa förutsägelser till vilken kombination eller antal ingångar som helst.

"Saknade data är ett kännetecken i resursbegränsade sammanhang, och när modeller lär sig dessa saknade mönster kan de koda fel i sina förutsägelser.” påpekade han Mary-Anne Hartley.

"Behovet av flexibilitet inför oförutsägbart tillgängliga resurser är det som inspirerade MultiModN".

I ett toppevenemang effekten av AI och maskininlärning på tjänster
Alla orsaker till AIs växande inflytande i digital konst

Maskininlärning
Ett analyslaboratorium (Foto: Michal Jarmoluk/Pixabay)

Från laboratoriet till det verkliga livet: ett försök om lunginflammation och tuberkulos pågår

Publikationen är dock bara det första steget mot implementering och fälttester. Professor Hartley arbetade med kollegor vid Lausanne University Hospital (CHUV) och Inselspital, universitetssjukhuset i Bern, för att genomföra kliniska studier fokuserat på att diagnostisera lunginflammation och tuberkulos i resursbegränsade miljöer, och håller på att rekrytera tusentals patienter South Africa, Tanzania, Namibia e Benin.

Forskargrupperna genomförde ett omfattande utbildningsinitiativ, undervisning mer än 100 läkare att systematiskt samla in multimodal data inklusive ultraljudsbilder och videor, så att MultiModN kan tränas att vara känslig för verklig data från resurssnåla regioner.

"Vi samlar in exakt den typ av komplex multimodal data som MultiModN är designad för att hantera", sa doktorn Noémie Boillat-Blanco, specialist på infektionssjukdomar vid CHUV.

"Vi är glada över att se en modell som kan uppskatta komplexiteten hos saknade resurser i våra sammanhang och den systematiska bristen på rutinmässiga kliniska bedömningar", tillade doktorn Kristina Keitel av Inselspital, universitetssjukhuset i den schweiziska huvudstaden.

Säkerheten för AI? Bletchley Park uttalande är avgörande
Axel Springer-OpenAI axel för AI i journalistikens tjänst

EPFL:s innovation är utformad för att förbättra det kliniska beslutsfattandet genom att ge tillgång till specialiserad medicinsk kunskap (Foto: Irwan/Unsplash)

Maskininlärning i det allmännas bästa

Utvecklingen och utbildningen av MultiModN representerar en fortsättning på EPFL:s ansträngningar att anpassa verktyg för maskininlärning till verkligheten och för allmänhetens bästa, och kommer strax efter lanseringen av Meditron, en artificiell intelligensmodell speciellt utformad för den medicinska sektorn.

Meditron tillhör också kategorin stora språkmodeller (LLM), men till skillnad från generalistmodeller, som tjänar ett brett spektrum av uppgifter, är det fokuserat på medicinskt område, och är mer kompakt när det gäller storlek, men ändå lika effektiv.

Meditrons mål är att demokratisera tillgången till medicinsk information av hög kvalitet, vilket underlättar kliniska beslut.

EPFL-forskare utvecklade två versioner med 7 miljarder respektive 70 miljarder parametrar, och modellerna tränades på utvalda medicinska datakällor av hög kvalitet, inklusive peer-reviewed vetenskaplig litteratur och olika kliniska riktlinjer, vilket säkerställer en bred och korrekt kunskapsbas.

Både Meditron, som presenterades i november 2023, och MultiModN är därför i linje med uppdraget för EPFL:s nya AI Center, som fokuserar på hur ansvarsfull och effektiv artificiell intelligens kan främja teknisk innovation till nytta för alla sektorer i samhället.

De revolutionerande sensorerna som kan spara miljontals batterier
AI: kriget som är på väg att bryta ut kommer inte att bli som vi förväntar oss...

Machine Learning: en ny multimodal modell för mer flexibel AI från EPFL
Utsidan av EPFL-campus med logotypen för Federal Polytechnic of Lausanne (Foto: Facebook/EFPL IC)