• Zuhause
  • Artikel
  • Hybrid-Clustering-Ansatz für die Affinitätsausbreitung für die Erkennung von Named-Entity
Veröffentlicht am 29-03-2019

Hybrid-Clustering-Ansatz für die Affinitätsausbreitung für die Erkennung von Named-Entity

Die Erkennung von benannten Entitäten (NER) ist ein häufiges Problem bei mehreren möglichen Lösungen, z. B. AWS Comprehend von Amazon und dem Stanford Named Entity Tagger. Diese Lösungen sind jedoch im Allgemeinen am besten für Situationen geeignet, in denen natürliche Sprache verwendet wird. In diesem Beitrag beschreibe ich eine neuartige Methode, bei der Affinitätsausbreitung und Clustering verwendet werden, um die Namen von Personen zu identifizieren, bei denen die Standard-NER möglicherweise versagt

Herausforderungen bei der Identifizierung der Namen von Personen

Im Bereich der Finanzdaten sind die Benutzer sehr besorgt über den Schutz der Privatsphäre, die Datensicherheit und die Compliance. Obwohl die meisten identifizierbaren Informationen nicht in Bankgeschäften enthalten sind, werden die Namen der einzelnen Kontoinhaber oder Zahlungsempfänger häufig in der Beschreibung angegeben. Während ein allgemeiner Vor- und Nachname nicht besonders identifizierbar ist, ist es verständlich, dass Benutzer möchten, dass diese Daten sorgfältig behandelt werden.

NER-Lösungen von Out-of-the-box sind aus einer Vielzahl von Gründen nicht gut für Finanztransaktionen:

  • Die Grammatik der Finanztransaktionen unterscheidet sich von der regulären englischen Sprache.
    • Die Reihenfolge der Begriffe (Vorname, Nachname oder Adressmarker) in einer Finanztransaktion kann verschlüsselt oder unvollständig sein.
    • Einzelne Namen, Straßennamen, Städte und Staatsnamen können abgekürzt, falsch geschrieben oder abgeschnitten werden.
    • Richtige Zeichensetzung und Kapitalisierung fehlen häufig.
    • Standardmäßig können NER-Lösungen auch bei nicht erkannten Entitäten wie ethnischen Namen versagen.

      Gängige NER-Lösungen berücksichtigen möglicherweise auch nicht die Entwicklung der Rechtschreibung. Ähnlich wie bei einem Telefonspiel können kleine Änderungen in einer gesendeten Nachricht nach einigen Generationen zu einem Gesamtfehler führen. Betrachten Sie das Beispiel mit dem gebräuchlichen Namen „Caitlyn“ unten.

      Entwicklung des Namens

      Der Name beginnt vernünftig und wird schließlich in "Kviiilyn" (oder K-römische Zahl achtlyn) umgewandelt. Dies ist offensichtlich ein extremes Beispiel, aber es ist ein reales Beispiel für die Entwicklung der Namen.

      Die Lösung von Intuit

      Im Finanz- und Bankwesen ist es besonders wichtig, die Namen der Personen richtig zu identifizieren. Die Informationen können verwendet werden, um Bankvorgänge genauer zu kategorisieren, oder sie können aus Sicherheitsgründen gelöscht werden.

      Wir gehen NER anders vor. Anstatt uns auf Token oder Klassifizierertypen wie bedingte Zufallsfelder zu konzentrieren, konzentrieren wir uns auf die aktive Einbindung von Variationen in unsere benannten Entitäten, indem Affinitätsweitergabe verwendet wird, um die Namen von Personen innerhalb einer Finanztransaktion zu identifizieren.

      Wir unterteilen unsere Methodik in zwei Phasen: Training und Vorhersage.

      Trainingsphase (offline)

      • Erstellen Sie ein Diagramm mit bekannten Elementen.
        • Berechnen Sie die Ähnlichkeit zwischen den Clustern für jede Entität (Verantwortungsmatrix). Versendete Verantwortlichkeitsaktualisierungen, wenn die Verantwortungsmatrix R ist und r (i, k) der repräsentative Vergleich ist. Dies verwendet die Bearbeitungsentfernung als Ähnlichkeitsfunktion.
        • Bestimmen Sie die verfügbaren Cluster für jede Entität (Verfügbarkeitsmatrix). Verfügbarkeitsaktualisierungen werden gesendet als:

        Vorhersagephase (online)

        • Suchen Sie für jede unbekannte Entität den besten verfügbaren Cluster, falls vorhanden.
      • Fügen Sie jede Entität zum Cluster hinzu und berechnen Sie den besten verfügbaren Cluster für verbleibende unbekannte Entitäten neu.
      • Fügen Sie alle Entitäten zu den relevanten Clustern als Diagramm der nächsten Generation hinzu.
      • Die Ergebnisse der Vorhersagephase werden in die Trainingsphase zurückgeführt, sodass wir auch zukünftige Generationen von Namen genau vorhersagen können.

        ERGEBNISSE

        Anfängliche gruppierte Namen (Trainingsphase)

        Generation 1:

        Gruppierte Namen (Vorhersagephase)

        Bei einer neuen Liste potenzieller Entitäten prognostizieren wir, welche Namen gültige Namen sind. Diese werden der Liste basierend auf der Affinität zu den Basis- und den Clusternamen hinzugefügt.

        Generation 2: (neue vorhergesagte Namen in Fettdruck hinzugefügt)

        Dieser Vorgang kann für mehrere Generationen wiederholt werden. Sobald eine kritische Masse von genauen bekannten Namen erreicht ist, können wir die Offline-Trainingsphase erneut durchführen, um die Genauigkeit zu erhalten und die Ähnlichkeit der Namen innerhalb der Cluster erneut zu optimieren.

        Bewertung unserer Methode

        Vergleich mit einem beschrifteten Datensatz mit 2.000 potenziellen Entitäten, aufgeteilt in 1.500 echte Einzelnamen und 500 Nichtnamen:

        Unsere Methode übertrifft den Industriestandard!

        Hinweis: Die meisten Namen in unserem Datensatz waren angelsächsische Namen. Wir glauben, dass wir unseren F1-Score im Vergleich zur Stanford NER Library um noch mehr Prozentpunkte steigern können, wenn Sie ethnische Namen und merkwürdige Namen testen.

        Diese Methode ist nicht auf die englische Sprache beschränkt. Jede Sprache mit einem Alphabet, für das wir eine Bearbeitungsentfernung berechnen können, kann zur Erstellung unseres Ausbreitungsdiagramms verwendet werden.

Siehe auch

Intel Optane Memory: Was ist das und warum brauchen Sie es?Wie können Hotels Food & Beverage verbessern und stärken, um die Gewinne zu steigern und den Gästeservice zu erhöhenVerwenden Sie Typescript in React Native in nur 2 ZeilenCS 373 Frühjahr 2019 - Woche 9: Matthew ZhaoBeste Budget-Grafikkarte 2019Liebe die virtuelle Realität? Hier sind die neuesten VR-Headsets für 2019