Das Natural Language Understanding (NLU, Verständnis natürlicher Sprache) ist ein Teilgebiet der künstlichen Intelligenz, das sich mit der Interpretation und Analyse menschlicher Sprache durch Maschinen befasst. Ziel ist es, dass Computersysteme nicht nur die wörtliche Bedeutung von Texten oder gesprochener Sprache erfassen, sondern auch kontextuelle Feinheiten, Intentionen, implizite Bedeutungen und Mehrdeutigkeiten, die im natürlichen Sprachgebrauch auftreten. Im Gegensatz zur reinen Texterkennung (wie der Schlagwortextraktion) erfordert NLU semantische und pragmatische Modellierung und ermöglicht so eine "intelligentere" Interaktion zwischen Mensch und Maschine.

Anwendungsfälle und Beispiele

NLU ist grundlegend für Anwendungen wie Chatbots, virtuelle Assistenten, Sentiment-Analyse, Dokumentenklassifikation, Intent-Erkennung in Kundenanfragen oder automatische Antwortgenerierung. Weitere Einsatzgebiete sind maschinelle Übersetzung, intelligente Informationssuche und Inhaltsmoderation.

Beispielsweise identifizieren NLU-Systeme im Kundendienst präzise den Grund der Anfrage und steuern die Antwort. Im medizinischen Bereich analysieren sie klinische Notizen, um relevante Informationen zu extrahieren.

Wichtige Software, Bibliotheken und Frameworks

Zu den meistgenutzten Tools zählen spaCy, NLTK, Stanford NLP, Rasa NLU, AllenNLP sowie die APIs von IBM Watson und Google Cloud Natural Language. Vorgefertigte Modelle wie BERT, RoBERTa, GPT und T5 sind Standards für fortgeschrittene NLU-Lösungen.

Aktuelle Entwicklungen und Trends

Durch das Aufkommen großer Sprachmodelle (LLMs) hat sich die NLU rasant weiterentwickelt und erreicht heute ein bisher unerreichtes Maß an Kontextverständnis und Generalisierung. Zu den aktuellen Trends zählen Transferlernen, die Verfeinerung mehrsprachiger Modelle sowie die Integration externer Wissensquellen zur Reduzierung von Bias und zur Erhöhung der Robustheit. Herausforderungen bestehen weiterhin in der Erklärbarkeit der Modelle und ihrer Anpassung an spezifische Anwendungsgebiete mit wenig annotierten Daten.