Unterstützt wird dies prinzipiell erst einmal durch die Unterscheidung zwischen Entitäten und Entitätstypen. Nach einer Art Type-Token-Unterscheidung ist mit Entität das individuelle Ding gemeint, mit Entitätstyp eine Klasse.
Ein Beispiel: „Peter Heinrich Brix“ ist eine Entität (der eine norddeutsche Schauspieler), „Kunde“ ist ein Entitätstyp, weil „Kunde“ nicht ein Individuum meint, sondern eine Klasse von Menschen, die eine bestimmte Handlung ausüben. In diesem Sinne wäre „Kunde“ eher ein „Konzept“ und würde – nach Olaf Kopps Verständnis – damit nicht als Entität zählen.
Googele ich „Kunde“ oder „Kunde was ist das“ bekomme ich oberhalb der SERPs den Wörterbucheintrag in einer Box sowie rechts oben eine Box „Ergebnisse für…“ mit einem Kurzeintrag zur Definition von „Kunde“ ausgespielt. Ein Klick in die Box führt zu einer weiteren Google-Ergebnisseite, die dann rechts oben eine Box enthält, die direkt auf den Wikipedia-Eintrag verlinkt. Diese Boxen dürften nach Kopp also keine Entitäten-Boxen sein.
Schauen wir uns aber die Suchintention für den Suchbegriff „Kunde“ genauer an. Wahrscheinlich ist, dass ich bei Google nach ein „Kunde“ oder „Kunde was ist das“ suche, weil ich den Begriff erklärt haben möchte. Dann kann in dem Moment „Kunde“ – rein logisch betrachtet – doch durchaus eine Entität sein, nämlich in seiner Eigenschaft als Begriff, und nicht in seiner Anwendung im sprachlichen Kontext.
Bei Wikipedia heißt es über das zur Entität modellierte Objekt: „Das Objekt kann materiell oder immateriell, konkret oder abstrakt sein.“ (Quelle: https://de.wikipedia.org/wiki/Entit%C3%A4t_(Informatik))
„Kunde“ wäre dann ein immaterielles, abstraktes Objekt mit der Zeichenfolge K-U-N-D-E und den modellierten Eigenschaften, eine Kategorie von Personen zu bezeichnen, die eine Kaufabsicht hat oder einen Kauf getätigt hat ODER einen Landstreicher zu bezeichnen ODER ein Synonym für den Erhalt einer Nachricht zu sein.
Diese Sichtweise kann durchaus auch mit einer Quelle plausibel machen, die Olaf Kopp heranzieht. In dem von ihm zitierten wissenschaftlichen Artikel „A Framework for Benchmarking Entity-Annotation Systems“ von Marco Cornolti, Paolo Ferragina und Massimiliano Ciaramita (letzterer ist Mitarbeiter von Google Research Zürich) heißt es:
„An entity (or concept, topic) is a Wikipedia article which is uniquely identified by its page-ID.“ (Quelle: https://static.googleusercontent.com/media/research.google.com/de//pubs/archive/40749.pdf)
Hier wird eine Entität quasi mit einem Wikipedia-Artikel gleichgesetzt. Ferner heißt es in demselben Beitrag:
„Most recent work adopts anchor texts occurring in Wikipedia as entity mentions and the respective Wikipedia pages as the mentioned entity, because Wikipedia offers today the best trade-off between catalogs with a rigorous structure but low coverage (such as WordNet, CYC, TAP), and a large text collection with wide coverage but unstructured and noisy content (like the whole Web). The process of entity annotation involves three main steps: (1) parsing of the input text, which is the task to detect candidate entity mentions and link each of them to all possible entities they could mention; (2) disambiguation of mentions, which is the task of selecting the most pertinent Wikipedia page (i.e., entity) that best describes each mention;” (https://static.googleusercontent.com/media/research.google.com/de//pubs/archive/40749.pdf)
Das bedeutet zunächst einmal nur, dass Wikipedia-Seiten für Google als Referenz für die Identifikation von Entitäten herangezogen werden, neben Quellen wie WikiData (ehemals Freebase) und dem CIA World Factbook. Das macht Sinn, denn in dem Moment, wo es einigen Wikipedia-Eintrag gibt, kann das Konzept oder Ding eindeutig identifiziert werden. Und es macht ebenfalls Sinn, anzunehmen, dass, wenn es zu etwas einen Wikipedia-Eintrag gibt, es auch als Entität interpretiert werden kann. Warum?
Zunächst einmal unterstellen wir dafür, dass Entitäten nicht nur Personen und Dinge sein können, sondern auch Begriffe. Es wurde schon geklärt, dass dies durch die Definition von „Entität“ durchaus gedeckt ist.
Wikipedia ist nun nichts anders als der „Brockhaus“ der digitalen Welt. Und was schlugen wir im Brockhaus oder Duden nach? Begriffe, deren Bedeutung wir kennenlernen wollten. Und Begriffe sind als Zeichenfolgen mit Denominationseigenschaften (also dem, was sie bezeichnen) Entitäten. Demnach kann eigentlich alles, was eine Wikipedia-Seite hat, eine Entität sein.