Semantische Textanalyse: Kontext is King

#9
praxis_digital
  • Im Recruiting kommen heute vermehrt Parsing-Lösungen zum Einsatz, die Textdaten per semantischer Analyse in Informationen überführen
  • Im Interview erklärt Dr. Bastian Preindl, Leiter der technischen Entwicklung bei JoinVision, wie eine semantische Textanalyse konkret abläuft und welche Stolpersteine es dabei zu beachten gibt
  • Neben dem Erkennen von Konzepten spielt bei semantischen Textanalysen vor allem der Kontext eine bedeutende Rolle

Um Bewerbungsprozesse objektiver und effizienter zu gestalten, entwickelt JoinVision Parsing- und Matching-Lösungen. In Sekundenbruchteilen unterzieht der Parser die Bewerbungsunterlagen einer semantischen Textanalyse und extrahiert alle relevanten Informationen in ein Kandidatenprofil, das die Matching-Software dann mit den Stellenanzeigen abgleicht. Über den konkreten Ablauf einer semantischen Textanalyse hat sich der arbeitsblog mit Dr. Bastian Preindl, dem Leiter der technischen Entwicklung bei JoinVision, näher unterhalten.

Herr Dr. Preindl, können Sie für alle Nicht-Linguisten zunächst kurz erklären, was der Sinn und Zweck von semantischen Textanalysen ist?
Vereinfacht gesagt geht es bei der semantischen Analyse darum, Textdaten, die etwa in Form von Bewerbungen vorliegen, in Informationen zu überführen. Die Fähigkeit, aus einer Unmenge von Daten konkrete Informationen zu gewinnen, ist im Zeitalter von Big Data ein ganz entscheidender Wettbewerbsvorteil. Nicht nur, aber gerade auch im Recruiting.

Wie läuft die semantische Analyse einer Bewerbung konkret ab?
Auf den ersten Blick recht geradlinig. Der Text wird in seine Einzelteile zerlegt und semantisch nicht relevante Wörter wie „denn“, „aber“ oder „jedenfalls“ sowie weiteres schmückendes Beiwerk werden gestrichen. Dann gilt es, mit dem sogenannten Part-of-speech-Tagging grammatikalische Konstrukte zu identifizieren und den übriggebliebenen Begriffen eine semantische Bedeutung zuzuweisen. Zum Beispiel, indem ein Begriff einem semantischen Konzept zugeordnet wird: Der Begriff „Bauer“ gehört zum Konzept „Landwirtschaft“. Das semantische Konzept wiederum ist Teil eines semantischen Netzwerkes – in der Informatik Ontologie genannt –, wodurch sich Zusammenhänge zwischen Begriffen und, in weiterer Folge, zwischen Dokumenten herleiten lassen. Es entstehen semantische oder inhaltliche Relationen.

Dr. Bastian Preindl ist Leiter der technischen Entwicklung bei JoinVision, (c) JoinVision

Wenn Sie „auf den ersten Blick recht geradlinig“ sagen – heißt das, dass es auf den zweiten Blick Stolpersteine gibt?
Die gibt es. Denken Sie nur an die unzähligen Synonyme – unterschiedlich lautende Begriffe mit derselben Bedeutung –, die sich einem semantischen Konzept zuordnen lassen. Zum Konzept „Landwirtschaft“ passt nicht nur der bereits genannte „Bauer“, sondern auch der „Landwirt“. Darüber hinaus sind aber auch Spezifikationen, zum Beispiel der „Obstbauer“ oder der „Weinbauer“, zu berücksichtigen. Gerade von diesen Spezifikationen gibt es oft sehr viele, deswegen konzentriert man sich schnell auf den relevanten Teil des Begriffes, nämlich „bauer“. Das ist zunächst einmal bequem, bringt aber neue Probleme mit sich.

Es werden fälschlicherweise auch Berufe wie der „Maschinenbauer“ mit aufgenommen?
Genau, auf Homonyme – gleichlautende Begriffe mit unterschiedlicher Bedeutung – gilt es bei der Informationsextraktion zu achten. Der Maschinenbauer ist kein Bauer im landwirtschaftlichen Sinne und gehört nicht in das Konzept „Landwirtschaft“. Aber auch Antonyme – Begriffe mit gegensätzlicher Bedeutung – müssen berücksichtigt werden. Ein semantisches System, das die Gegensätzlichkeit von „chemischer Landwirtschaft“ und „biologischer Landwirtschaft“ nicht erkennt, kann nur unbefriedigende Ergebnisse liefern.

Der Kontext spielt also eine ganz wesentliche Rolle?
Wie in vielen Bereichen der Informationsextraktion ist bei der semantischen Textanalyse nicht nur das Erkennen von Konzepten, sondern vor allem deren Deutung in einem bestimmten Kontext wichtig. In einem agrarisch geprägten Lebenslauf ist „wirtschaft“ mit hoher Wahrscheinlichkeit der Landwirtschaft zuzuordnen, in einer Ausschreibung für Controller vermutlich der „Betriebswirtschaft“ und in einem touristisch geprägten Profil der „Gastwirtschaft“. Das Erkennen, welche Konzepte in welchem Kontext relevant sind, erfolgt wiederum durch Machine Learning – ein spannendes Thema für unser nächstes Gespräch.



Ihnen hat der Beitrag gefallen? Wir haben mehr davon :-) ! Abonnieren Sie unseren Newsletter - und Sie erfahren regelmäßig, was auf dem arbeitsblog und rund um die Personaldienstleistungsbranche passiert.

Christopher Prohl

Studierter Kommunikationswissenschaftler (M.A.) und PR-Referent (FJS). Mehrjährige Agenturerfahrung, bei Kontext public relations und im arbeitsblog für die Kreation von Content zuständig.

EMail |  Facebook |  Xing | 
0 Kommentare

Neuer Kommentar