Az, hogy az OpenAI mesterséges intelligenciája, a ChatGPT nem hibátlan, közismert. Ezért most képzelje el, hogy van egy mesterséges intelligenciás szuperszerkesztő, amely hibákat keres a ChatGPT által előállított kódban. Ilyen a szintén az OpenAI fejlesztett a CriticGPT.
A vállalat többi, fogyasztókat célzó modelljétől eltérően a GPT4-re épülő CriticGPT-t úgy tervezték, hogy „kritikákat írjon a ChatGPT válaszairól, hogy segítsen az emberi oktatóknak észrevenni a hibákat visszajelzésekből történő megerősítő tanulás során. Másként fogalmazva, segít az OpenAI hús-vér oktatóinak „elkapni a hibákat a ChatGPT kódkimenetében”. Az OpenAI szerint a CriticGPT által felülvizsgált kód akár 60 százalékkal felülmúlhatja a nem felülvizsgált kódot.
A ChatGPT képzéséhez hasonlóan a CriticGPT-nek is tanulnia kell, emberi visszajelzéseken keresztül is okítják. A CriticGPT fejlesztése magában foglalta a modell betanítását nagyszámú, szándékosan beillesztett hibákat tartalmazó bemenetre. A humán trénereket arra kérték, hogy módosítsák a ChatGPT által írt kódot, tegyenek be szándékos hibákat, majd adjanak visszajelzést, mintha felfedezték volna ezeket a hibákat. Ez a folyamat lehetővé tette a modell számára, hogy megtanulja, hogyan lehet azonosítani és kritizálni a különböző típusú kódolási hibákat. A kísérletek során a CriticGPT bebizonyította, hogy képes észrevenni mind a beillesztett hibákat, mind a természetesen előfordulókat a ChatGPT kimenetében. Az MI-oktatók ezt követően értékelték a CriticGPT azon képességét, hogy megtalálja ezeket a szándékos hibákat és a más oktatók által elkapott, természetesen előforduló hibákat.
Az OpenAI egyébként azt tervezi, hogy az emberi visszajelzésekből származó megerősítési tanulást (RLHF) fogja használni arra, hogy a ChatGPT-t „hasznosabbá és interaktívabbá” tegye. Ennek a folyamatnak szerves része az összehasonlítások összegyűjtése az MI-oktatóktól. Ez pedig azon alapul, hogy hogyan értékelik a különböző ChatGPT-válaszokat egymáshoz képest.
A CriticGPT összességében segíthet javítani a ChatGPT érvelési képességeit, csökkentve a hallucinációkat, illetve a helytelen válaszok és félretájékoztatás generálását. Az eszközt elsősorban a ChatGPT-válaszok pontatlanságait kiemelő kritikák azonosítására és írására képezték ki. Az OpenAI elismeri, hogy az eszköz nem mindig száz százalékban pontos, de segít a mesterséges intelligencia oktatóinak gyorsabban és könnyebben azonosítani a hibákat, mint az MI nélkül. Míg a mesterséges intelligencia oktatói és a CriticGPT külön is el tudják elvégezni a munkát – a ChatGPT bírálatát – kettőjük kombinációja igen alaposnak tűnik, pontos és részletes kritikákat ad.
Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.