Haal meer uit uw data met text-mining

Het handmatig coderen van open antwoorden is bij grote datasets vaak onbegonnen werk, hier kan text-mining uitkomst bieden. DataIM heeft onderzoek gedaan naar de validiteit van text-mining indicatoren, hierbij bleek dat modellen met deze indicatoren twee keer zoveel verklarende kracht hadden als modellen zonder indicatoren.

Data is zilver, inzicht is goud wordt veelal gezegd. In veel vragenlijsten zijn open vragen verwerkt die tekst als output genereren. Open vragen verwerken in een vragenlijst is nuttig, omdat het respondenten een klankbord biedt. Ook levert het een stuk verdieping en nieuwe kennis op, omdat de antwoorden context en aanvulling bieden op gesloten vragen en nieuwe onderwerpen naar voren kunnen laten komen. Het handmatig coderen van open-tekstdata is bij grote continue surveys onbegonnen werk, daar komt text-mining erg goed van pas.

Text-mining heeft als doel om geautomatiseerde informatie uit ongestructureerde open antwoorden te extraheren, labelen, aggregeren en uiteindelijk te rapporteren. DataIM heeft een interactieve tool gemaakt waarmee gericht relevante open vragen kunnen worden ingezet voor dit doeleinde. Deze techniek werd toegepast bij een survey uitgezet onder een letschelschadeverzekeraar met ongeveer 20k-40k respondenten per jaar. Deze survey bevatte gesloten vragen over thema’s rondom de schadeclaimafhandeling, en de afsluitende open vraag: wat had de verzekeraar beter moeten doen?

De procedure van text-mining begint bij de voorbewerking. Hierbij wordt de data geanonimiseerd en opgeschoond, de tekst opgesplitst in losse woorden en woordvervoegingen teruggebracht naar een basisvorm.

Na de voorbewerking vindt topic modelling plaats. Hierin worden de uni- en bigrammen gekoppeld aan thema’s. Bij verzekeraars kan bijvoorbeeld gedacht worden aan het thema Vergoeding met de bijhorende unigrammen bedrag, geld en uitbetaling en de bigrammen schadebedrag en hoogte bedrag. Ook worden de onderzoeksuitkomsten gevalideerd, om zodoende tot betrouwbare uitspraken te komen. Hierbij wordt gekeken naar de samenhang tussen de open en gesloten vragen.

De tekst antwoorden worden automatisch ingedeeld in één of meerdere thema’s, zoals bijvoorbeeld het eerdergenoemde thema Vergoeding. Hierin worden ook subthema’s gegenereerd, om zodoende de tevredenheid beter te classificeren. De uitkomsten worden per thema gepresenteerd aan de hand van positieve punten en verbeterpunten. Per verzekeraar kan dan uiteindelijk gekeken worden hoe de verdeling per thema ligt tussen positieve punten en verbeterpunten, hierdoor kunnen verzekeraars onderling worden vergeleken.

Ons data science team heeft inmiddels al veel ervaring met het verwerken van open-tekst data. Wilt u meer informatie over hoe onze techniek meer waarde uit uw data kan halen? Neem dan contact op met Gijs van Blokland (gijs@dataim.nl).