Angenommen, Sie meinen die Rechenfehlerrate auf der für das Modell passenden Probe, können Sie printcp () verwenden. Beispielsweise wird unter Verwendung des Online-Beispiels der Root-Knotenfehler verwendet, um zwei Maße der prädiktiven Leistung zu berechnen, wenn man Werte berücksichtigt, die in dem rel-Fehler und der xerror-Spalte angezeigt werden, und abhängig von dem Komplexitätsparameter (erste Spalte): 0,76471 · 0,20988 0.1604973 (16.0) ist die Resubstitutionsfehlerrate (dh die Fehlerrate, die auf dem Trainingsprobe berechnet wird) - dies ist etwa 0,82353 x 0,20988 0,1728425 (17,2) die kreuzvalidierte Fehlerrate (unter Verwendung von 10-fachem CV, siehe xval in rpart. Control (), aber siehe auch xpred. rpart () und plotcp (), die auf dieser Art von Maßnahme beruht). Diese Maßnahme ist ein objektiverer Indikator für prädiktive Genauigkeit. Beachten Sie, dass es mehr oder weniger mit der Klassifizierungsgenauigkeit aus dem Baum übereinstimmt: wobei die Fehlerklassifizierungsfehlerrate aus dem Trainingsprogramm berechnet wird. Lecture 11 Entscheidungsbaum Lernen Wie in der letzten Vorlesung diskutiert, wählen wir das Lösungskonzept und die In denen wir lernen, diese Lösungen sind die wichtigsten Aspekte einer Lernmethode. Wir schauen in dieser Vorlesung auf Entscheidungsbäumen - ein einfaches, aber leistungsfähiges Darstellungsschema, und wir betrachten die ID3-Methode für das Entscheidungsbaumlernen. 11.1 Entscheidungsbäume Stellen Sie sich vor, dass Sie am Wochenende nur vier Dinge tun: Shoppen, Film ansehen, Tennis spielen oder einfach nur im Haus bleiben. Was Sie tun, hängt von drei Dingen ab: dem Wetter (windig, regnerisch oder sonnig) wie viel Geld Sie haben (Reich oder arm) und ob Ihre Eltern besuchen. Du sagst zu dir selbst: wenn meine Eltern zu Besuch sind, gehe ins Kino. Wenn theyre nicht besucht und sein sonniges, dann krankes Tennis spielen, aber wenn sein windiges und Im reich, dann Kranke Einkaufen gehen. Wenn theyre nicht besucht, sein windiges und Imarm, dann gehe ich ins Kino. Wenn theyre nicht besucht und sein regnerisches, dann Kranke innen. Um dieses zu erinnern, zeichnen Sie ein Flussdiagramm, das Ihnen erlaubt, Ihre Entscheidung abzulesen. Wir nennen solche Diagramme Entscheidungsbäume. Ein geeigneter Entscheidungsbaum für die Entscheidungen am Wochenende wäre wie folgt: Wir können sehen, warum solche Diagramme als Bäume bezeichnet werden, weil sie, obwohl sie zugegebenermaßen umgedreht sind, von einer Wurzel ausgehen und Zweige haben, die zu Blättern führen (die Spitzen des Graphen ganz unten). Beachten Sie, dass die Blätter immer Entscheidungen sind, und eine bestimmte Entscheidung könnte am Ende von mehreren Zweigen (zum Beispiel könnten wir wählen, um das Kino aus zwei verschiedenen Gründen gehen). Bewaffnet mit unserem Entscheidungsbaum, am Samstagmorgen, wenn wir aufwachen, ist alles, was wir tun müssen, ist zu überprüfen (a) das Wetter (b), wie viel Geld wir haben und (c) ob unser Eltern-Auto in der Fahrt geparkt ist. Der Entscheidungsbaum wird es uns ermöglichen, unsere Entscheidung zu treffen. Nehmen wir zum Beispiel an, daß die Eltern nicht auftauchten und die Sonne schien. Dann wird dieser Weg durch unseren Entscheidungsbaum uns sagen, was zu tun ist: und daher laufen wir weg, um Tennis zu spielen, weil unser Entscheidungsbaum uns gesagt hat. Beachten Sie, dass der Entscheidungsbaum alle Eventualitäten abdeckt. Das heißt, es gibt keine Werte, dass das Wetter, die Eltern auftauchen oder die Geldsituation nehmen könnte, die arent im Entscheidungsbaum versorgt wird. Beachten Sie, dass wir in dieser Vorlesung untersuchen werden, wie automatisch Entscheidungsbäume aus Beispielen generiert werden, und nicht darum, wie man Gedankenprozesse in Entscheidungsbäume umwandelt. Lesen von Entscheidungsbäumen Es gibt eine Verbindung zwischen Entscheidungsbaumdarstellungen und logischen Darstellungen, die ausgenutzt werden können, um es leichter zu verstehen (gelesene) gelernte Entscheidungsbäume zu machen. Wenn wir darüber nachdenken, ist jeder Entscheidungsbaum tatsächlich eine Disjunktion von Implikationen (wenn dann Aussagen), und die Implikationen sind Hornklauseln: eine Konjunktion von Literalen, die ein einziges Literal implizieren. Im obigen Baum können wir dies sehen, indem wir vom Wurzelknoten zu jedem Blattknoten lesen. Wenn die Eltern besuchen, dann ins Kino gehen oder wenn die Eltern nicht besuchen und es sonnig ist, dann Tennis spielen oder wenn die Eltern nicht besuchen und es windig ist und du reich bist, dann einkaufen gehen oder wenn die Eltern nicht sind Besuchen und es ist windig und du bist arm, dann ins Kino gehen oder Wenn die Eltern nicht besuchen und es ist regnerisch, dann bleiben in. Natürlich ist dies nur eine Re-Erklärung des ursprünglichen mentalen Entscheidungsprozesses, den wir beschrieben haben. Denken Sie jedoch daran, dass wir einen Agenten programmieren, um Entscheidungsbäume aus Beispiel zu lernen, so dass diese Situation nicht auftreten wird, da wir mit nur Beispielsituationen beginnen werden. Daher wird es für uns wichtig sein, den Entscheidungsbaum, den der Agent vorschlägt, zu lesen. Entscheidungsbäume müssen keine Repräsentationen von Entscheidungsprozessen sein und können gleichermaßen auf Kategorisierungsprobleme angewendet werden. Wenn wir die obige Frage etwas anders formulieren, können wir dies sehen: Anstatt zu sagen, dass wir einen Entscheidungsprozess für das, was wir am Wochenende machen wollen, darstellen, könnten wir fragen, was für ein Wochenende das ist: ist es ein Wochenende, wo wir spielen Tennis, oder ein, wo wir einkaufen gehen, oder eine, wo wir einen Film sehen, oder eine, wo wir bleiben in Ein anderes Beispiel können wir zurück auf die Tiere Beispiel aus der letzten Vorlesung verweisen: In diesem Fall wollten wir kategorisieren, welche Klasse Ein Tier war (Säugetier, Fisch, Reptil, Vogel) mit physischen Attributen (egal ob es Eier, Anzahl der Beine, etc.). Dies könnte leicht formuliert werden als eine Frage des Erlernens eines Entscheidungsbaums, um zu entscheiden, welche Kategorie ein bestimmtes Tier ist, z. B. Wenn es Eier legt und ist homöothermisch, dann sein ein Vogel, und so weiter. 11.2 Lernen von Entscheidungsbäumen mit ID3 Wir müssen nun sehen, wie Sie Ihren Entscheidungsbaum bei der Entscheidung, was am Wochenende zu tun ist, mental konstruiert haben. Eine Möglichkeit wäre, Hintergrundinformationen als Axiome zu verwenden und daraus abzuleiten, was zu tun ist. Zum Beispiel können Sie wissen, dass Ihre Eltern wirklich gerne ins Kino gehen, und dass Ihre Eltern in der Stadt sind, also also (mit so etwas wie Modus Ponens) würden Sie entscheiden, ins Kino zu gehen. Eine andere Art und Weise, in der Sie sich entschieden haben, war durch Verallgemeinerung aus früheren Erfahrungen. Stellen Sie sich vor, Sie erinnerten sich an alle Zeiten, in denen Sie ein wirklich gutes Wochenende hatten. Ein paar Wochen zurück, es war sonnig und Ihre Eltern nicht besucht, spielten Sie Tennis und es war gut. Vor einem Monat hat es geregnet und du warst mittellos, aber eine Reise ins Kino hat dich aufgeheitert. Und so weiter. Diese Informationen könnten Ihre Entscheidungsfindung geführt haben, und wenn dies der Fall war, hätten Sie eine induktive, nicht deduktive Methode verwendet, um Ihren Entscheidungsbaum zu erstellen. In Wirklichkeit ist es wahrscheinlich, dass die Menschen Grund zur Lösung von Entscheidungen mit Hilfe von induktiven und deduktiven Prozessen. Wir können das Problem des Lernens von Entscheidungsbäumen wie folgt beschreiben: Wir haben eine Reihe von Beispielen, die korrekt in Kategorien (Entscheidungen) kategorisiert sind. Wir haben auch einen Satz von Attributen, die die Beispiele beschreiben, und jedes Attribut hat eine endliche Menge von Werten, die es möglicherweise nehmen kann. Wir wollen die Beispiele verwenden, um die Struktur eines Entscheidungsbaums zu erlernen, der verwendet werden kann, um die Kategorie eines unsichtbaren Beispiels zu bestimmen. Angenommen, es gibt keine Inkonsistenzen in den Daten (wenn zwei Beispiele genau die gleichen Werte für die Attribute haben, aber anders kategorisiert werden), ist es offensichtlich, dass wir immer einen Entscheidungsbaum konstruieren können, um korrekt für die Trainingsfälle mit 100 Genauigkeit zu entscheiden. Alles was wir tun müssen, ist sicherzustellen, dass jede Situation für einige Zweige des Entscheidungsbaums gesorgt wird. Natürlich kann 100 Genauigkeit angeben, Overfitting. Die grundlegende Idee Im Entscheidungsbaum oben, ist es bedeutsam, dass der Elternknotenpunkt an der Spitze des Baumes kam. Wir wissen nicht genau den Grund für dieses, da wir nicht die Beispielwochenenden sahen, von denen der Baum produziert wurde. Allerdings ist es wahrscheinlich, dass die Anzahl der Wochenenden die Eltern besucht war relativ hoch, und an jedem Wochenende sie besuchten, gab es eine Reise ins Kino. Nehmen wir an, zum Beispiel haben die Eltern alle vierzehn Tage ein Jahr lang besucht, und bei jeder Gelegenheit besuchte die Familie das Kino. Dies bedeutet, dass es keine Beweise für etwas anderes zu tun, als einen Film zu sehen, wenn die Eltern besuchen. Da wir Regeln aus Beispielen lernen, bedeutet dies, dass, wenn die Eltern besuchen, die Entscheidung bereits getroffen wird. Daher können wir dies an der Spitze des Entscheidungsbaums setzen und alle Beispiele ignorieren, bei denen die Eltern bei der Konstruktion des Restes des Baumes besucht haben. Nicht um eine Reihe von Beispielen zu kümmern wird die Bauarbeit leichter machen. Diese Art von Denken zugrunde liegt der ID3-Algorithmus für das Lernen Entscheidungen Bäume, die wir beschreiben mehr formell unten. Allerdings ist die Argumentation ein wenig subtiler, da (in unserem Beispiel) sie auch die Beispiele berücksichtigen würde, wenn die Eltern nicht besuchen. Entropie Zusammensetzen eines Entscheidungsbaums ist alles eine Frage der Auswahl des zu testenden Attributs an jedem Knoten im Baum. Wir definieren eine Maßnahme namens Informationsverstärkung, die verwendet wird, um zu entscheiden, welches Attribut an jedem Knoten zu testen. Der Informationsgewinn wird selbst mit Hilfe der als Entropie bezeichneten Maßzahl berechnet, die wir zunächst für den Fall eines binären Entscheidungsproblems definieren und dann für den allgemeinen Fall definieren. Bei einer binären Kategorisierung, C und einer Menge von Beispielen, S, für die der Anteil der Beispiele, die als positiv von C kategorisiert wurden, p ist und der Anteil der Beispiele, die als negativ durch C kategorisiert sind, p - ist. Dann ist die Entropie von S: Der Grund, warum wir die Entropie zuerst für ein binäres Entscheidungsproblem definiert haben, ist, weil es einfacher ist, einen Eindruck davon zu bekommen, was es zu berechnen versucht. Tom Mitchell formuliert dies ganz gut: Um genau den Informationsgewinn zu definieren, definieren wir zunächst eine in der Informationstheorie gebräuchliche Maßnahme, die Entropie, die die (Im) Reinheit einer willkürlichen Sammlung von Beispielen charakterisiert. Stellen Sie sich vor, mit einer Reihe von Boxen mit einigen Kugeln in. Wenn alle Bälle in einem einzigen Feld waren, dann wäre dies gut geordnet, und es wäre extrem einfach, einen bestimmten Ball zu finden. Wenn jedoch die Kugeln unter den Boxen verteilt wurden, wäre dies nicht so schön geordnet, und es kann eine ganze Weile dauern, bis ein bestimmter Ball zu finden. Wenn wir eine Maßnahme auf der Grundlage dieses Begriffs der Reinheit definieren würden, würden wir in der Lage sein, einen Wert für jede Box basierend auf der Anzahl der Kugeln in ihr zu berechnen, und dann die Summe dieser als Gesamtmaßnahme zu nehmen. Wir möchten zwei Situationen belohnen: fast leere Boxen (sehr ordentlich) und Boxen mit fast allen Bällen in (auch sehr ordentlich). Dies ist die Grundlage für die allgemeine Entropiemaßnahme, die wie folgt definiert ist: Bei einer willkürlichen Kategorisierung C in Kategorien c 1. C n. Und eine Menge von Beispielen S, für die der Anteil der Beispiele in ci p i ist. Dann ist die Entropie von S: Diese Maßnahme erfüllt unsere Kriterien aufgrund der - plog 2 (p) - Konstruktion: Wenn p nahe bei null ist (dh die Kategorie hat nur wenige Beispiele in ihr), dann wird das log (p) Eine große negative Zahl, aber die p-Teil dominiert die Berechnung, so dass die Entropie arbeitet, um fast Null. Wenn man bedenkt, dass die Entropie die Störung in den Daten berechnet, ist diese niedrige Punktzahl gut, da sie unseren Wunsch widerspiegelt, Kategorien mit wenigen Beispielen zu belohnen. Ähnlich, wenn p nahe an 1 ist (dh die Kategorie hat die meisten der Beispiele in) Wird das log (p) - Teil sehr nahe an null, und es ist das, was die Berechnung dominiert, so dass der Gesamtwert nahezu Null wird. Wir sehen also, daß sowohl bei fast - oder ganzer Leerheit der Kategorie, oder wenn die Kategorie beinahe alle Beispiele enthält oder ganz enthält - die Punktzahl für die Kategorie nahe an Null kommt, was modelliert, was wir wollen. Man beachte, daß 0ln (0) als Konstante Null ist. Information Gain Wir kehren nun zum Problem zurück, das beste Attribut für einen bestimmten Knoten in einem Baum zu bestimmen. Die folgende Maßzahl berechnet einen Zahlenwert für ein gegebenes Attribut A in Bezug auf einen Satz von Beispielen S. Beachten Sie, dass die Werte von Attribut A über einen Satz von Möglichkeiten, die wir Werte (A) nennen, liegen und dass für Ein spezieller Wert von diesem Satz, v, schreiben wir Sv für den Satz von Beispielen mit dem Wert v für das Attribut A. Der Informationsgewinn des Attributs A, bezogen auf eine Sammlung von Beispielen S, wird berechnet als: Der Informationsgewinn von Kann ein Attribut als die erwartete Reduktion der Entropie angesehen werden, die durch das Erkennen des Wertes des Attributs A verursacht wird. Eine Beispielrechnung Als Beispiel nehmen wir an, dass wir mit einem Satz von Beispielen arbeiten, die S 1, s 2, s 3, s 4 sind Eine binäre Kategorisierung von Positiven und Negativen, so dass s 1 positiv und der Rest negativ ist. Es sei ferner angenommen, daß wir die Informationsverstärkung eines Attributs A berechnen wollen und daß A die Werte annehmen kann. Angenommen, s 1 nimmt den Wert v2 für A s 2 nimmt den Wert v2 für A s 3 nimmt den Wert v3 für A s 4 nimmt den Wert v1 für A Um den Informationsgewinn für A relativ zu S zu berechnen, müssen wir zuerst berechnen Die Entropie von S. Um unsere Formel für binäre Kategorisierungen zu verwenden, müssen wir den Anteil der Positive in S und den Anteil der Negative kennen. Diese sind gegeben durch: p 14 und p - 34. Also können wir berechnen: Beachten Sie, dass Sie diese Berechnung mit Ihrem Rechner durchführen müssen: log 2 (x) ln (x) ln (2), (S v) für jeden Wert v v1, v2, v3, v4 zu berechnen, wobei zu beachten ist, daß die Gewichtung eine Multiplikation mit (S vi S) einschließt. Beachten Sie auch, dass S v die Menge von Beispielen aus S ist, die den Wert v für Attribut A haben. Das bedeutet: Wir müssen nun diese Berechnungen durchführen: Beachten Sie, dass wir 0 log 2 (0) auf Null gesetzt haben Ist Standard. In unserer Berechnung haben wir nur log 2 (1) 0 und log 2 (12) -1 benötigt. Wir müssen nun diese drei Werte zusammen addieren und das Ergebnis aus unserer Berechnung für Entropie (S) erhalten, um das Endergebnis zu erhalten: Gain (S, A) 0,811 - (0 12 0) 0,311 Wir betrachten nun, wie Informationsgewinne möglich sind In der Praxis in einem Algorithmus verwendet werden, um Entscheidungsbäume zu konstruieren. Der ID3-Algorithmus Die Berechnung der Informationsverstärkung ist der schwierigste Teil dieses Algorithmus. ID3 führt eine Suche durch, wobei die Suchzustände Entscheidungsbäume sind und der Bediener das Hinzufügen eines Knotens zu einem vorhandenen Baum beinhaltet. Es nutzt Informationen zu gewinnen, um das Attribut in jedem Knoten setzen zu messen, und führt eine gierige Suche mit dieser Maßnahme von Wert. Der Algorithmus verläuft wie folgt: Angesichts eines Satzes von Beispielen, S, kategorisiert in Kategorien c i. Dann: 1. Wählen Sie den Wurzelknoten als das Attribut A aus, das den höchsten Wert für die Informationsverstärkung relativ zu S ergibt. 2. Für jeden Wert v, den A eventuell nehmen kann, zeichnen Sie einen Zweig vom Knoten. 3. Für jede Verzweigung von A, die dem Wert v entspricht, berechne Sv. Dann: Wenn S v leer ist, wählen Sie die Kategorie c default, die die meisten Beispiele aus S enthält, und legen Sie diese als die Blattknotenkategorie fest, die diesen Zweig endet. Wenn Sv nur Beispiele aus einer Kategorie c enthält, dann setzen Sie c als die Blattknotenkategorie, die diesen Zweig endet. Andernfalls entfernen Sie A aus dem Satz von Attributen, die in Knoten gesetzt werden können. Setzen Sie dann einen neuen Knoten in den Entscheidungsbaum, wo das neue Attribut, das in dem Knoten getestet wird, dasjenige ist, das am höchsten für den Informationsgewinn relativ zu S v (Anmerkung: nicht relativ zu S) ist. Dieser neue Knoten startet den Zyklus wieder (von 2), wobei S durch Sv in den Berechnungen ersetzt wird und der Baum wird iterativ so aufgebaut. Der Algorithmus wird beendet, wenn alle Attribute erschöpft sind oder der Entscheidungsbaum die Beispiele eindeutig klassifiziert. Das folgende Diagramm soll den ID3-Algorithmus weiter erklären: 11.3 Ein gearbeitetes Beispiel Wir halten an unserem Wochenendbeispiel fest. Angenommen, wir wollen einen Entscheidungsbaum mit folgenden Instanzen ausbilden: Das erste, was wir tun müssen, ist, herauszufinden, welches Attribut in den Knoten an der Spitze unseres Baumes gesetzt wird: entweder Wetter, Eltern oder Geld. Um dies zu tun, müssen wir folgendes berechnen: Wir müssen das Beste bestimmen: Gain (S, Eltern) 1.571 - (S ja 10) Entropie (S ja) - (S Nr. 10) Entropie (S nein) 1.571 - ( (S-arm) 1,571 - (0,10) Entropie (S-reich) - (S-arm 10) Entropie (S-arm) 1,571 - (0,7) (1,842) & ndash; (0.3) 0 1.571 - 1.2894 0.2816 Dies bedeutet, dass der erste Knoten im Entscheidungsbaum das Wetterattribut ist. Als Übung, überzeugen Sie sich selbst, warum diese erzielte (etwas) höher als die Eltern-Attribut - denken Sie daran, was Entropie bedeutet und schauen, wie die Informationsgewinne berechnet wird. Vom Wetterknoten ziehen wir einen Ast für die Wetterwerte: sonnig, windig und regnerisch: Jetzt sehen wir uns den ersten Zweig an. S sonnig. Dies ist nicht leer, so dass wir hier keinen Default-Kategorisierungs-Blattknoten setzen. Die Kategorisierungen von W1, W2 und W10 sind Kino, Tennis und Tennis. Da diese nicht alle gleich sind, können wir hier keinen Kategorisierungs-Blattknoten setzen. Daher setzen wir hier einen Attributknoten, den wir vorläufig leer lassen werden. Blick auf den zweiten Zweig, S windig. Auch dies ist nicht leer, und sie gehören nicht alle zur gleichen Klasse, so dass wir einen Attributknoten hier setzen, leer lassen für jetzt. Die gleiche Situation geschieht mit dem dritten Zweig, daher sieht unser geänderter Baum so aus: Jetzt müssen wir die Wahl des Attributs A ausfüllen, von dem wir wissen, daß es kein Wetter sein kann, weil wir das schon aus der Liste der zu verwendenden Attribute entfernt haben. Also müssen wir die Werte für Gain (S sonnig, Eltern) und Gain (S sunny. Money) berechnen. Erstens, Entropie (S sonnig) 0,918. Als nächstes setzen wir S für S sonnig (und für diesen Teil des Zweigs werden wir alle anderen Beispiele ignorieren). In der Tat sind wir nur an diesem Teil der Tabelle interessiert: Daher können wir berechnen: Beachten Sie, dass Entropie (S ja) und Entropie (S nein) beide Null waren, weil S ja Beispiele enthält, die alle in der gleichen Kategorie (Kino ) Und S keine ähnlich Beispiele, die alle in der gleichen Kategorie (Tennis) sind. Dies sollte deutlich machen, warum wir den Informationsgewinn verwenden, um Attribute auszuwählen, die in Knoten gesetzt werden sollen. Angesichts unserer Berechnungen sollte das Attribut A als Eltern genommen werden. Die beiden Werte von den Eltern sind ja und nein, und wir werden für jeden von diesen einen Zweig aus dem Knoten ziehen. Denken Sie daran, dass wir das Set S durch das Set S Sunny ersetzt haben. Blick auf S ja. Dass das einzige Beispiel hierfür W1 ist. Daher bleibt der Zweig für Ja bei einem Kategorisierungsblatt stehen, wobei die Kategorie Kino ist. Auch S nicht enthält W2 und W10, aber diese sind in der gleichen Kategorie (Tennis). Der Zweig endet hier also nicht in einem Kategorisierungsblatt. Daher sieht unser modernisierter Baum wie folgt aus: Der Abschluß dieses Baumes bleibt als Übung übrig. 11.4 Vermeidung von Überbeanspruchung Wie bereits in der vorigen Vorlesung diskutiert, ist Überbefestigung ein häufiges Problem beim maschinellen Lernen. Entscheidungsbäume leiden darunter, weil sie trainiert werden, zu stoppen, wenn sie alle Trainingsdaten perfekt klassifiziert haben, d. h. jeder Zweig wird gerade weit genug ausgedehnt, um die für diesen Zweig relevanten Beispiele korrekt zu kategorisieren. Viele Ansätze zur Überwindung der Überbelastung in Entscheidungsbäumen wurden versucht. Wie zusammengefasst von Tom Mitchell, passen diese Versuche in zwei Arten: Stoppen Sie, den Baum zu wachsen, bevor er Vollkommenheit erreicht. Erlauben Sie dem Baum, vollständig zu wachsen, und dann einige der Zweige von ihm nachzuschneiden. Der zweite Ansatz wurde in der Praxis erfolgreicher. Beide Ansätze gehen auf die Frage der Bestimmung der richtigen Baumgröße zurück. Siehe Kapitel 3 von Tom Mitchells Buch für eine ausführlichere Beschreibung der Overfitting Vermeidung in Entscheidungsbaum lernen. 11.5 Angemessene Probleme für das Entscheidungsbaumlernen Es ist ein qualifizierter Job in AI, genau das richtige Lerndarstellungsverfahren für eine bestimmte Lernaufgabe zu wählen. Das von Tom Mitchell entwickelte Entscheidungsbaumlernen eignet sich am besten für Probleme mit diesen Merkmalen: Die Hintergrundkonzepte beschreiben die Beispiele in Form von Attributwertpaaren und die Werte für jede Attributreihe über endlich viele feste Möglichkeiten. Das zu lernende Konzept (Mitchell nennt es die Zielfunktion) weist diskrete Werte auf. In der Antwort sind möglicherweise fehlerhafte Beschreibungen erforderlich. Darüber hinaus ist das Entscheidungsbaumlernen robust gegen Fehler in den Daten. Insbesondere funktioniert es gut im Hinblick auf (i) Fehler in den Klassifizierungsinstanzen, die (ii) Fehler in den angegebenen Attributwertpaaren und (iii) fehlende Werte für bestimmte Attribute für bestimmte Beispiele zur Verfügung gestellt werden. Kopieren Simon Colton 2004
Comments
Post a Comment