Terug naar het overzicht
Artikel

Vier veelgestelde vragen over de wetenschap achter Pera

Je taal is net zo uniek als een vingerafdruk en geeft inzicht in je persoonlijkheid en belangrijkste competenties. Maar welke taalanalysetechnieken kunnen worden gebruikt om deze inzichten te verkrijgen? De meest gebruikte technieken in de computationele linguïstiek om persoonlijkheid en competenties af te leiden uit natuurlijke taal staan hieronder opgesomd:

1. Woordcategorieën analyseren

Pennebaker en King (1999) onderzochten als eersten correlaties tussen frequenties van woordcategorieën en persoonlijkheidskenmerken. Ze ontdekten eenvoudige relaties die persoonlijkheidskenmerken boven het toevalsniveau konden voorspellen, bijvoorbeeld:

  • Mensen die meer lidwoorden en meer woorden van meer dan 6 letters gebruiken scoren bovengemiddeld en staan meer open voor nieuwe ervaringen.
  • Mensen die vaak negatieve emotiewoorden en de eerste persoon enkelvoud gebruiken neigen meer neurotisch te zijn.
  • Mensen die weinig negatieve emotiewoorden en ontkenningen gebruiken, zijn gemiddeld gewetensvoller.

2. Individuele woorden analyseren

Schwartz et al. (2013) keken naar de relaties tussen individuele woorden en persoonlijkheidskenmerken. Gezien het grote aantal woorden in een taal, kan een dergelijke analyse alleen worden uitgevoerd op een zeer groot corpus (in hun geval 700 miljoen woorden uit 15,4 miljoen Facebook-berichten). Ze ontdekten dat de frequenties van individuele woorden, zinnen of onderwerpen gebruikt kunnen worden om bijvoorbeeld persoonlijkheid uit taal af te leiden:

  • Extraverte mensen gebruiken woorden als "feest" en "chillen" vaker dan introverte mensen, terwijl introverte mensen woorden als "computer", "internet" en "anime" vaker gebruiken dan extraverte mensen.

3. Schrijfstijl analyseren

In plaats van te analyseren wat iemand schrijft, hebben onderzoekers zoals Daelemans (2003) zich gericht op hoe iemand schrijft. Deze methode staat bekend als computationele stylometrie en houdt in dat er wordt gekeken naar stilistische kenmerken zoals tekenreeksen, interpunctie, woordreeksen, parse trees, leesbaarheid, woordenschatrijkdom of discourskenmerken.

  • Mensen die meer interpunctie gebruiken en een rijkere woordenschat hebben, staan meer open voor nieuwe ervaringen.

4. Deep learning

Meer recentelijk zijn deep learning-technieken geïntroduceerd op het gebied van computationele linguïstiek. Diep leren heeft geleid tot zeer significante prestatieverbeteringen voor bijna elke taak in de computationele taalkunde, inclusief persoonlijkheids- en competentie-inferentie. Vanwege deze significante prestatiewinst in vergelijking met traditionele methoden, vertrouwt Pera voornamelijk op deep learning-modellen om de uitkomsten van het digitale interview te berekenen.

Referenties:

  • Pennebaker, J. W., & King, L. A. (1999). Taalstijlen: taalgebruik als individueel verschil. Tijdschrift voor persoonlijkheids- en sociale psychologie, 77(6), 1296.
  • Schwartz, H. A., Eichstaedt, J. C., Kern, M. L., Dziurzynski, L., Ramones, S. M., Agrawal, M., & Ungar, L. H. (2013). Persoonlijkheid, geslacht en leeftijd in de taal van sociale media: De open woordenschat benadering. PloS one, 8(9), e73791.
  • Daelemans, W. (2013, maart). Uitleg in computationele stylometrie. In International Conference on Intelligent Text Processing and Computational Linguistics (pp. 451-462). Springer, Berlijn, Heidelberg.

Wat zijn de stappen om een organisatiespecifiek voorspellend model te trainen?

In de onderstaande figuur wordt een overzicht gegeven van de verschillende stappen in het trainen van een model voor een specifieke organisatie. In de eerste stap selecteert de klant de belangrijkste eigenschappen en competenties die vereist zijn in de organisatie of voor de specifieke functie en selecteert hij een representatieve steekproef van ten minste 50 werknemers. Deze steekproef moet bestaan uit toppresteerders, gemiddelde presteerders en slecht presteerders. De werknemers in de steekproef worden uitgenodigd om een klein aantal open vragen te beantwoorden.

Overview of Pera methodology for organization-specific predictive models

Bovendien geven managers, HR-professionals, collega's en zelfs klanten vervolgens 360-graden feedback over de belangrijkste eigenschappen en competenties van deze werknemers. Om een statistisch valide en eerlijke dataset te garanderen, ontwikkelde Pera een online 360-graden feedbackmodule. In deze online module worden beoordelaars gevraagd om medewerkers met elkaar te vergelijken, bijvoorbeeld "wie (van de twee personen hieronder) vertoont het meest de volgende competentie?". Deze vergelijkende beoordelingen geven een veel gedetailleerder inzicht in de competenties van medewerkers dan traditionele beoordelingen op een absolute 1-5 schaal.

Nadat de 360-graden feedback over de prestaties en de taal van de werknemers zijn verzameld, verwerkt een machine learning-algoritme zonder toezicht de antwoorden op de open vragen en zet ze allemaal om in een dichte N-dimensionale vector.Vervolgens worden de vectorrepresentaties van de antwoorden en de menselijke scores voor competenties en gedragingen gebruikt als input door een gesuperviseerd algoritme voor machinaal leren om een voorspellend model te genereren.

Pera gebruikt k-voudige kruisvalidatie om het model intern te valideren, maar in de validatiestap kan de klant het model ook valideren op een extra steekproef van werknemers die Pera nog niet eerder heeft gezien. De gegevens uit de validatiefase worden gebruikt om het model bij te werken en zodra deze stap is voltooid, is het model productieklaar.

Tijdens de inzet van het model worden kandidaten uitgenodigd om dezelfde open vragen te beantwoorden als door de steekproef van werknemers zijn beantwoord.Op basis van de voorspellingen voor elk van de belangrijkste eigenschappen en competenties wordt een algemene digitale interviewscore berekend die de mate van geschiktheid voor een specifieke rol uitdrukt. De totaalscore en de individuele scores voor elke eigenschap of competentie worden gerapporteerd als percentielscores. Dat betekent dat de scores weergeven hoe een kandidaat zich verhoudt tot een normgroep van kandidaten in vergelijkbare functies.

Voor een subset van aangepaste modellen zijn harde prestatiegegevens beschikbaar, zoals omzetcijfers of andere KPI's op basis van harde gegevens. Indien beschikbaar zal Pera de harde prestatiegegevens gebruiken voor twee doeleinden, namelijk:

  1. Om optimale gewichten toe te kennen aan de eigenschappen en competenties die worden geschat op basis van een digitaal interview.
  2. Om de voorspellende kracht van het digitale interview te kwantificeren en de verwachte zakelijke impact in te schatten.

De modelontwikkeling stopt niet nadat het initiële model is ingezet. Door periodiek taalgegevens en vaardigheidsscores van nieuwe werknemers toe te voegen aan de werknemerssteekproef, verhoogt het voorspellende model geleidelijk zijn nauwkeurigheid.

Het ontwikkelen van een op maat gemaakt voorspellend model klinkt als een aanzienlijke inspanning. Is er geen eenvoudigere manier om het digitale interview van Pera te gebruiken?

Gelukkig is die er.

In het begin van Pera zou elke organisatie die geïnteresseerd is in het digitale interview, Pera eerst moeten voorzien van 360-graden prestatiegegevens en taalgegevens van hun werknemers. Op basis van deze gegevens zou Pera een model trainen dat organisatiespecifieke competenties voorspelt op basis van een digitaal interview. Deze organisatiespecifieke modellen worden aangepaste modellen genoemd. Zie ook de vraag hieronder over "Wat zijn de stappen om een organisatiespecifiek voorspellend model te trainen?".

Na het ontwikkelen van aangepaste modellen voor veel bedrijven, talen, functies en bedrijfstakken, realiseerden onderzoekers bij Pera zich twee dingen:

  1. Er is een aanzienlijke overlap van relevante competenties tussen organisaties en functies. Een zorgvuldige clustering van de competentiebeschrijvingen in de vele aangepaste modellen resulteerde in 9 clusters van competenties die (1) significant iets anders meten en (2) vaak gebruikt werden in verschillende organisaties en rollen.
  2. Er bestaat overlap in de taalkundige markers die deze competentievoorspellingen in verschillende aangepaste modellen aansturen.

Op basis van deze twee inzichten trainde Pera voorspellende modellen voor deze 9 kenmerkclusters die relatief goed generaliseren over verschillende organisaties en functies.Vanwege hun generaliseerbaarheid worden deze modellen generieke modellen genoemd.

Tegenwoordig hebben organisaties dus twee opties om het digitale interview te scoren:

  1. Een op maat gemaakt model dat organisatiespecifieke competenties kan berekenen, maar waarvoor kwalitatief hoogwaardige trainingsgegevens vooraf moeten worden aangeleverd.
  2. Een generiek model dat direct beschikbaar is voor gebruik en de scores van maximaal negen verschillende generieke competenties uit een digitaal interview kan berekenen.

Scoren anderstaligen lager op het digitale interview?

Het korte antwoord is nee.We kijken simpelweg niet naar taalkenmerken die sterk correleren met het zijn van een anderstalige, zoals grammaticafouten of typefouten.

In 2016 werd een op maat gemaakt voorspellend model gebruikt om jonge professionals te werven voor een leiderschapsprogramma over duurzaamheid en impactcreatie. Meer dan 1700 kandidaten uit meer dan 100 verschillende landen beantwoordden vier open vragen in het Engels en voor elke kandidaat werden digitale interviewscores berekend.Omdat de moedertaal van de kandidaten niet bekend was, werden de officiële talen van het land van herkomst gebruikt als alternatieve manier om vast te stellen of ze Engels als moedertaal hadden of niet.

Statistische analyse toonde aan dat het feit of kandidaten afkomstig waren uit een nietmoedertaalsprekend Engels land minder dan 1% van de variantie in de digitale interviewscores verklaarde, wat praktisch niet significant is.

Als u meer wilt weten of de vele klantverhalen wilt lezen, lees dan onze whitepaper.