Het begrijpen van zinnen via zin embeddings

In dit artikel stellen we een nieuw algoritme voor, WordGraph2Vec (WG2Vec), dat tekstgegevens kan analyseren. WG2Vec combineert twee aspecten van het werkveld natural language processing: taal modellen en woord embeddings.

Ten eerste gebruikt WG2Vec taal modellen om tekst op een grammaticaal niveau te ontleden en te begrijpen. Zogenaamde Word graphs worden uit de teksten onttrokken op basis van de grammaticale eigenschappen van de woorden in de tekst. Deze Word graphs moeten in principe de relevante zinnen uit een (grotere) tekst bevatten.

Vervolgens wordt met word embeddings modellen, zoals Word2Vec, bepaald wat de woorden in de zinnen (semantisch) betekenen. WG2Vec vertaald dus zinnen naar een reeks getallen, oftewel “zin embeddings”. Zinnen met soortgelijke getallen moeten in principe een soortgelijke betekenis hebben.

Samenvattend, WG2Vec analyseert teksten zowel op een grammaticaal als semantisch niveau, daar waar standaard taal- en word embeddings modellen slechts één van de twee doen. In het artikel tonen we aan met voorlopige experimenten dat WG2Vec op een efficiënte wijze semantisch gelijke vaardigheden kan herkennen in vacature data.

Downloads

PDF Paper - WordGraph2Vec