Upptäcker GPT-4-fel med CriticGPT

OpenAI har utvecklat en innovativ modell som heter CriticGPT, som hjälper till att upptäcka fel i GPT-4:s kodutmatning. Artikeln utforskar hur CriticGPT förbättrar noggrannheten genom att hjälpa tränare i deras arbete med Reinforcement Learning from Human Feedback (RLHF).

Förbättrad kodgranskning

CriticGPT tränades för att upptäcka fel i ChatGPTs kodutmatning. Resultaten visar att användare som assisteras av CriticGPT presterar 60 % bättre än de utan hjälp. CriticGPT hjälper till att identifiera subtila fel som annars kan vara svåra att upptäcka.

Apple iPhone

Apple iPads

Apple Macbook

Apple AirPods

Apple Watch

Integration i RLHF-Labeling

OpenAI arbetar med att integrera CriticGPT-liknande modeller i deras RLHF-märkningspipeline. Detta kommer att ge utbildare explicit AI-hjälp, vilket är ett steg mot att utvärdera avancerade AI-system.

Detaljerad analys

GPT-4-modellerna som driver ChatGPT är designade för att vara till hjälp genom RLHF. En viktig del av RLHF är att sammanställa jämförelser där AI-tränare betygsätter olika ChatGPT-svar mot varandra. När modelleringsbeteendet utvecklas blir ChatGPT mer exakt och felen mer subtila. Detta gör det svårare för tränare att upptäcka felaktigheter, vilket komplicerar RLHF-processen.

Utbildning av CriticGPT

CriticGPT tränades med RLHF, där AI-tränare manuellt infogade fel i kod skriven av ChatGPT och sedan skrev feedback som om de hade upptäckt felet. CriticGPT var sedan tvungen att identifiera dessa fel och andra naturligt förekommande fel. CriticGPT:s kritik föredras av tränare 63% av tiden eftersom det ger färre små klagomål och hallucinatoriska problem.

Metoder och resultat

CriticGPT tränades också för att generera längre och mer omfattande kritik med hjälp av en sökprocedur som balanserar aggressiviteten i felsökningen. Detta har visat sig vara effektivt för att producera användbar kritik för RLHF.

Begränsningar

CriticGPT är tränad på kortare svar och har begränsningar i att hantera komplexa uppgifter. Modeller hallucinerar fortfarande, och tränare kan göra misstag baserat på dessa hallucinationer. Framtida fel kan spridas över många delar av ett svar, vilket kräver mer sofistikerade metoder.

Framtida prospekt

För att anpassa AI-system som blir allt mer komplexa behöver vi bättre verktyg. Forskningen visar att tillämpningen av RLHF på GPT-4 har potential att hjälpa människor att producera bättre RLHF-data för GPT-4. Planen är att utöka detta arbete ytterligare och genomföra det i praktiken.

Slutsats

Integreringen av CriticGPT i RLHF-pipelines representerar ett viktigt steg framåt i utvecklingen av avancerade AI-system. Genom att kombinera mänsklig insikt med CriticGPT:s kapacitet kan mer exakta och effektiva AI-utvärderingar uppnås.