OpenAI s ChatGPT: Lyssnar nu, talar och svarar på bilder

September 25, 2023

OpenAIs Chat, en populär AI-chatbot, har nu lärt sig att konversera med hjälp av talat språk, ungefär som Siri och alexa, vilket markerar ett betydande steg i AI-kommunikation.

Med denna nya utveckling kan användare interagera med chatt via röstinteraktion, vilket gör det mer tillgängligt och mångsidigt. Det San Francisco-baserade AI-startupföretaget OpenAI lanserade nyligen den här versionen av chatboten och tänjer på gränserna för AI-kommunikation.

För första gången kan Chat nu svara på bilder. Användare kan till exempel ladda upp ett foto på kylskåpets insida, och chatboten kan föreslå potentiella rätter baserat på tillgängliga ingredienser. Denna innovativa funktion syftar till att göra Chat mer användarvänlig och fördelaktig.

OpenAI har snabbt utökat sina AI-verktyg. De presenterade nyligen en version av sin DALL-E-bildgenerator och integrerade den i Chat. Sedan lanseringen i november har Chat lockat hundratals miljoner användare och inspirerat liknande tjänster från andra företag.

Den nya boten överträffar sina konkurrenter som Google Bard samtidigt som den utmanar etablerade tekniker som Alexa och Siri. Dessa digitala assistenter har traditionellt underlättat interaktioner med enheter via rösten. Nyare chattrobotar som Chat och Google Bard har dock överlägsna språkkunskaper, vilket gör att de kan generera e-postmeddelanden, skriva poesi och diskutera nästan vilket ämne som helst direkt.

OpenAIs senaste erbjudande slår effektivt samman dessa två kommunikationsmetoder. Företaget ser tal som ett mer intuitivt sätt att interagera med sin chatbot. De hävdar att Chats syntetiska röster, tillgängliga i fem olika alternativ, överglänser de som används med populära digitala assistenter.

Den nya chatboten kommer att vara tillgänglig för alla prenumeranter på Chat Plus, en tjänst som kostar 20 dollar i månaden, inom de närmaste två veckorna. Boten kan dock bara svara med rösten när den används på iPhones, iPads och Android-enheter.

Även om Chats röstgränssnitt kan påminna användare om tidigare assistenter, är tekniken bakom det fundamentalt annorlunda. Det drivs främst av en stor språkmodell (LLM) som genererar språk genom att analysera stora mängder text från hela internet.

Chatt kan svara på praktiskt taget vilken fråga som helst på några sekunder, till skillnad från äldre digitala assistenter som Alexa och Siri, som bara kunde utföra ett begränsat antal uppgifter eller besvara en begränsad lista med programmerade frågor.

I takt med att OpenAI utvecklar Chat till något liknande Alexa eller Siri, omvandlar företag som Amazon och Apple sina digitala assistenter till att likna Chat.

Amazon förhandsgranskade nyligen ett uppdaterat Alexa-system som syftar till en mer flytande konversation om "vilket ämne som helst", delvis driven av en ny LLM. Under tiden har Apple testat en prototyp av sin LLM för framtida produkter, enligt insiders.

Den nya chatten kan också svara på bilder när den används via webben såväl som på iPhone, iPad och Android-enheter. Den här funktionen kan visa sig ovärderlig för synskadade användare.

OpenAI demonstrerade först detta bildverktyg under våren men försenade dess offentliga publicering tills de bättre förstod dess potentiella missbruk. Till exempel fanns det farhågor om att det skulle kunna fungera som en ansiktsigenkänningstjänst som används för att snabbt identifiera personer på foton.

Trots dessa framsteg har boten fortfarande områden att förbättra. Till exempel kan den brottas med homonymer, men den kan korrigera sig själv, vilket visar botens avancerade inlärningsförmåga.

Sammanfattningsvis markerar OpenAIs senaste version av Chat ett betydande språng inom AI-kommunikation och erbjuder förbättrad användarinteraktion och mångsidighet. I takt med att AI fortsätter att utvecklas ska det bli intressant att se hur jättar som Amazon och Apple reagerar på dessa framsteg.