De transformatie van artikelen naar AI Podcasts

Er worden dagelijks vele interessante artikelen geschreven in de Nederlandse media, maar je hebt niet altijd zin, tijd of de mogelijkheid om dit allemaal te lezen. Wat als elk artikel ook als levendige podcast beschikbaar was? Luistert lekker weg op de fiets, in het OV of op een strandbedje aan de Middellandse Zee. Inmiddels is het vaak mogelijk om een artikel te luisteren, maar dan wordt het gewoon (vrij droog) voorgelezen. Een informatieve discussie, waarbij meerdere invalshoeken en meningen aan bod komen, zou best wat kunnen toevoegen.

De uitdaging

Dus, kunnen we een overtuigende Nederlandstalige podcast laten maken door AI en hoe beoordelen luisteraars vervolgens het resultaat? Deze vraag stelden wij, team EO Innovatie en team ONBRDNG, onszelf. Gevolg was een project waarbij wij de productie van een podcast, met behulp van AI, probeerden te automatiseren. Idee is dat je niet alleen een knop hebt bij een artikel om voor te laten lezen maar ook een knop die automatisch een podcast genereert. Hierbij gingen wij uit van de volgende uitgangspunten.

Wij wilden:
– Geschreven content, zoals een artikel, breder beschikbaar maken (i.v.m. ontlezing)
– Verschillende perspectieven belichten over een onderwerp
– Geen fakenews of verzinsels: trouw blijven aan de content uit het artikel
– Nederlandse uitspraak zonder (Amerikaans) accent
– Een interessante, levendige dialoog tussen verschillende karakters (gebaseerd op Jung)

De beste text to speech AI tooling

Uiteraard zijn we gestart met een test van alle -op dat moment beschikbare- AI tooling. Voor het omzetten van de tekst van de scripts naar audio zijn de volgende platformen getest: Speechify, OpenAI, Kukarella, ElevenLabs, ReSpeecher, Murf.ai. ElevenLabs kwam als beste uit de tests voor het genereren van bijna niet van echt te onderscheiden gesproken tekst. De overige diensten leverde matige kwaliteit of duidelijk als AI te identificeren stemmen.

Van Prompt naar audio

Om tot realistische, Nederlandse, stemmen in een interactieve (niet voorlees) setting te komen, hebben wij stemfragmenten opgenomen (2 uur, interactieve setting, meerdere emoties). Vervolgens zijn de stemmen getraind met ElevenLabs en de scripts omgezet naar een podcast format met audio en muziek. De personen kwamen tot leven door deze personen en scripts te prompten m.b.v. Claude.

Resultaten

Onze bevindingen op een rij:

  • Het omzetten van script naar audio gaat relatief snel
  • Het is (nog) niet mogelijk om het proces volledig geautomatiseerd te doen. Stappen die niet volledig automatisch gaan:
    • script (prompt) verfijning
    • tekst naar audio
    • volledige edit eindproduct (inclusief jingles, etc) 
  • Het was voor ons (nog) duidelijk te horen dat het geen menselijke conversatie is

Luisteraars onderzoek

Vandaar dat wij de resultaten met een kwalitatief onderzoek hebben voorgelegd aan een groep media professionals. Zij kregen de podcasts te horen zonder vermelding dat deze door middel van AI waren gegenereerd. Het resultaat?

– De AI gegenereerde podcast wordt door luisteraars als levendig beoordeeld
– Men vond de content overwegend leerzaam en interessant
– De discussie in de podcast belichtte verschillende perspectieven over het onderwerp
– Sommige luisteraars hadden wel al redelijk snel door dat AI in het spel was: dat ondermijnde vervolgens wel de geloofwaardigheid van de inhoud een beetje
– In cijfers was het resultaat als volgt: Rond 28% zou willen luisteren naar een serie van deze AI podcast, 28% zou dat niet willen en 28% misschien… geen slechte score voor een geheel geautomatiseerde, door AI gegenereerde podcast.

En oh ja, we waren eerder dan NotebookLM 🤗. Overigens een prachtige podcast generatie tool voor Engelstalige content en (nog?) onbruikbaar voor andere talen. Door het project weten we nu hoe en met welke AI tools, van script, training van stemmen in interactie (we hebben nu relatief weinig audiomateriaal gebruikt dus het kan nog veel beter), tot productie, overtuigende, Nederlandstalige podcasts kunnen worden gemaakt. Hiermee gaan wij nu verder om het gehele traject te verbeteren, met keuze voor verschillende stemmen, invalshoeken, profielen en podcast formats. Zo kunnen wij binnenkort tekst vertalen naar interessante, levendige, Nederlandstalige, interactieve, inhoudelijke gesprekken.

[Helaas kunnen wij geen audiofragmenten plaatsen bij dit artikel ivm rechten]

Plaats een reactie