Der Blätterkatalog benötigt Javascript.
Bitte aktivieren Sie Javascript in Ihren Browser-Einstellungen.
The Blätterkatalog requires Javascript.
Please activate Javascript in your browser settings.
24 Elektronik automot ive Datenanalyse Sonderzeichen verarbeitet oder auch Rechtschreibfehler korrigiert Auf diese Weise werden die Texte einer Datenbasis vereinheitlicht dargestellt Der Quality Assessor hat zwei Aufga ben Zum einen überprüft er ob ein Text von der Pipeline verarbeitet wer den kann – dies berücksichtigt bei spielsweise die unterstützte Sprache Zum anderen wird überprüft ob der Text überhaupt verwertbare Informa tionen enthält Zur Wissensextraktion gehören die Module »Information extraction« »Entity extraction« und »Problem ex traction« Es wurden zwei Ansätze ver folgt der DeepLearningAnsatz und der linguistische Ansatz Beide Ansätze haben ihre Vor und Nachteile Für den DeepLearningAnsatz wurden zwei neuronale Netze trainiert Das erste Netz extrahiert sinntragende Entitä ten der Klassen »Fehlerart« »Fehler ort« und »Fehlerbedingung« Das andere Netz klassifiziert das Ticket in eine von 33 Fehlerklassen wie beispielsweise »Korrosion« oder »Montageproblem« Im linguistischen Ansatz wird mit einer Ontologie gearbeitet In dieser sind ver schiedene Informationen wie zum Bei spiel mögliche Fehlerarten Fehlerorte oder verwendete Bauteile gespeichert Anhand der Ontologie werden wie auch im DeepLearningAnsatz die Entitä ten extrahiert und die Fehlerklasse des Tickets bestimmt Um ähnliche Tickets zu finden müs sen die Tickets zueinander in Relation gesetzt werden Dies passiert im Modul der Datenrepräsentation Hierbei wer den die Texte auf Basis der extrahierten Informationen in einem Vektorraum dargestellt Sobald das Eingabeticket in den Vektorraum integriert wurde ist es möglich über die Abstände zueinander ähnliche Tickets zu bestimmen Deep-Learningversus linguistischer Ansatz Neuronale Netze haben den Nachteil dass sie noch nicht vollkommen erklär bar sind Das bedeutet dass es teilweise nicht nachvollziehbar ist wie sie zu einer Ausgabe kommen und sie zusätz lich eine gewisse Unsicherheit mit sich bringen Durch Verfolgen des Deep LearningAnsatzes wird diese Unsi cherheit in die Pipeline integriert Es ist demnach möglich dass beispielsweise ein Bauteil oder ein Name fälschlicher weise als Fehlerart ausgegeben wird Der Vorteil von neuronalen Netzen ist jedoch dass sie auch Entitäten erken nen können die ihnen nicht antrainiert wurden Es ist daher nicht notwendig alle relevanten Fehlerarten orte und bedingungen in allen erdenklichen Schreibweisen im Trainingsdatensatz abzubilden Genau das ist der Nachteil einer Ontologie Eine Ontologie bein haltet Konzepte und ihre Relationen zueinander Die Konzepte entsprechen in diesem Fall den Entitäten Ein Bei spiel für die Relation ist »ein Türgriff ist ein Teil der Tür die Tür ist ein Teil der Karosserie die Karosserie ist ein Teil des Fahrzeugs« Es können Syno nyme Abkürzungen Kurzformen und viele weitere Darstellungsformen eines Wortes angegeben werden Allerdings werden aus einem Text unter Zuhilfe nahme einer Ontologie lediglich exakt die Entitäten extrahiert die auch in der Ontologie benannt sind Unterscheidet sich auch nur ein Buchstabe so wird die Entität nicht extrahiert Der Vor teil allerdings ist dass die Ontologie vollständig nachvollziehbar und damit auch gezielt erweiterbar ist Zusätzlich ist es hierbei möglich Relationen und weitere Eigenschaften eines Konzep tes darzustellen Diese können bei der Extraktion von Wissen hilfreich sein Belastende Evaluation Es ist generell schwierig die Güte der vorgeschlagenen Tickets hinsichtlich ihrer Ähnlichkeit zu quantifizieren Eine gängige Ähnlichkeitsmetrik zu verwenden ist nicht zielführend da auf diese Weise die Pipeline hin zur gewählten Metrik optimiert werden würde Stattdessen sollte eine Ähnlich keitsbewertung der Tickets durch die Benutzer als Maßstab verwendet wer den Diese Bewertungen sind jedoch mit Unsicherheiten behaftet da sie zum einen keine Objektivität garantieren und zum anderen tagesabhängig sind Für die Evaluation wurden folglich drei Benutzer gebeten 100 Testtickets hinsichtlich ihrer Relationen zu zehn weiteren zufälligen Tickets zu labeln Insgesamt wurden dadurch 1 000 gela belte Ticketpaare generiert Da hier bei mehrere Benutzer labeln wird die Subjektivität verringert Zusätz lich wurde dieser Prozess auf mehrere Tage verteilt Hierdurch wurde eben falls die Tagesabhängigkeit gemildert Die Entwicklerinnen und Entwickler haben sich anschließend die Bewer tungen angeschaut und unklare Fälle mit den Benutzern durchgesprochen Durch diesen Vorgang wurde ein rea litätsnaher Datensatz erzeugt Es ist Bild 3 Vergleich der Performance von AIdentify mit Baseline Lucene Bild EDAG Group