Tech hvg.hu 2023. május. 17. 20:03

Radiológus-vizsgasort raktak kutatók a ChatGPT elé, és egész ígéretesen szerepelt a chatbot – voltak azonban megdöbbentő, érthetetlen hibái

Egyelőre úgy tűnik, nem vált ki egy radiológust a ChatGPT, bár több szempontból is lenyűgöző, amit elért – vagy érthetetlenül elbukott – egy ilyen vizsgán a chatbot.

Az OpenAI által fejlesztett ChatGPT-t már több vizsgának is alávetették korábban. Jogi és üzleti vizsgákon egy közepes tanuló szintjét tudta teljesíteni a chatbot, míg egy komplex, több egészségügyi területet felölelő vizsgasorozaton 52,4 és 75 százalék közötti eredményt ért el.

Most ismét egy orvosi feladatsort raktak a kanadai Torontói Általános Kórház (TGH) kutatói a ChatGPT elé, az eredmény pedig alapvetően egészen meggyőző – de azért vannak gyenge pontjai.

A szakemberek egy 150 kérdésből álló feladatsorral adták fel a leckét a chatbotnak – ezek a kérdések hasonlítottak azokhoz, amelyekkel a kanadai és az amerikai radiológiai testületek mérik fel a tanulók tudását. Egy akadályt azért le kellett küzdeni a teszthez, a ChatGPT ugyanis képeket nem tud fogadni bemenetként, így a kutatók csak a szövegeket adták meg a chatbotnak. A kérdéseket – nehézségük szerint – két csoportba osztották, alacsonyabb és magasabb rendű besorolásokba, az eredményeket pedig a Radiology folyóiratban publikálták.

Felmondott „a mesterséges intelligencia keresztapja", és nagyon fél attól, mi lesz ebből az egészből

A mesterséges intelligenciában keresztapaként is emlegetett Geoffrey Hinton több mint egy évtized után távozik a Google-től, hogy szabadon beszélhessen az MI veszélyeiről.

Előbbiek például a téma általános megértését, míg utóbbiak az információk alkalmazását, analizálását és összegzését követelték meg. Egyúttal azt is tesztelték, hogy a jelenleg elérhető két ChatGPT-verzió (az ingyenes változat GPT-3.5-ös változata, valamint az új GPT-4) között van-e különbség, jobb-e az egyik, mint a másik.

Nos, előbbi, a GPT-3.5 eredménye 69 százalékos lett az egész kérdéssorra vetítve. Az alacsonyabb rendű kérdéseknél tudott villantani: itt 84 százalékot ért el, 61 kérdésből 51 volt helyes. A magasabb rendűeknél vérzett el, itt 60 százalékot sikerült abszolválnia, 89 kérdésből 53-at tudott helyesen megválaszolni.

A márciusban bemutatott GPT-4 már 81 százalékos összesített eredménnyel zárt, 150-ből 121 kérdést válaszolt meg helyesen. Az OpenAI a GPT-4 bejelentésekor a komplex kérdések megválaszolásának fejlődését is kiemelte, ami a magasabb rendű kérdéseknél is visszaköszönt: 81 százalékot ért el ezeken a chatbot.

Itt jött azonban a csavar. A GPT-4 ugyanis az alacsonyabb rendű kérdésekből 12 olyat szúrt el, amire a GPT 3.5 még helyesen válaszolt – ez a kutatókat is meglepte, főleg, hogy ezt megelőzően az új változat igen bonyolult radiológiai kérdésekre pontos válasszal szolgált.

Összességében, az átjutáshoz 70 százalékos eredmény szükséges, így a GPT 3.5 egyetlen százalékon bukott el, míg a GPT-4 már bőven átment.

Házipatika és Webbeteg helyett érdemes-e orvosi tanácsért fordulni a mesterséges intelligenciához?

Mennyire megbízható a mesterséges intelligencia, ha egészségügyi, például szűréssel kapcsolatos tanácsokért fordulunk hozzá? - tették fel a kérdést amerikai kutatók.

Ugyan a GPT-4-ben már csökkent az úgynevezett hallucinációk száma – ami a téves információk magabiztos állítását fedi le –, de az orvoslásban az ilyen tévedések végzetesek lehetnek – összegez az Interesting Engineering.

Egyelőre tehát úgy tűnik, hogy nem fogja kiváltani a radiológusokat a nyelvi modell.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.