Wie funktioniert die Welt?
zu Anhedonie, das heißt zu der Unfähigkeit, sich zu freuen; der Verlust der Dopamin-Neuronen hat die Parkinson-Krankheit zur Folge, bei der die Betroffenen keine Handlungen und Gedanken mehr anstoßen können.
Das TD -Lernen ist so wirksam, weil es Informationen über den Wert in vielen verschiedenen Dimensionen zusammenführt und dabei im Hinblick auf das Erreichen weit entfernter Ziele eigentlich Äpfel und Birnen vergleicht. Das ist wichtig, weil rationale Entscheidungen angesichts vieler Variablen und Unbekannten sehr schwierig sind. Ein inneres System, das schnell gute Vermutungen anstellt, ist dabei von Vorteil und kann in Fällen, in denen schnelle Entscheidungen notwendig sind, den Unterschied zwischen Leben und Tod bedeuten. Das TD -Lernen ist auf die Summe unserer gesamten Lebenserfahrung angewiesen. Es destilliert aus diesen Erfahrungen auch dann noch das Wesentliche heraus, wenn wir uns an die Details der einzelnen Erlebnisse schon längst nicht mehr erinnern.
Mit dem TD -Lernen lassen sich auch viele Experimente von Psychologen erklären, die Ratten und Tauben auf einfache Aufgaben trainierten. Verstärkungs-Lernalgorithmen galten traditionell als zu schwach, als dass man damit komplexe Verhaltensweisen erklären könnte, weil sie nur eine geringfügige Rückkopplung aus der Umwelt beinhalten. Dennoch ist Lernen durch Verstärkung bei nahezu allen biologischen Arten verbreitet, und es ist die Ursache einiger besonders komplizierter Formen von sensomotorischer Koordination, beispielsweise beim Klavierspielen oder Sprechen. Das Lernen durch Verstärkung wurde in der Evolution über Hunderte von Jahrmillionen hinweg fein abgestimmt und hat unzähligen Arten, insbesondere unserer eigenen, gute Dienste geleistet.
Wie komplex darf ein Problem sein, damit es noch durch TD -Lernen zu lösen ist? Das Computerprogramm TD -Gammon lernte Backgammonspielen, indem es selbst spielte. Dieser Ansatz birgt die Schwierigkeit, dass die Belohnung erst am Ende des Spiels folgt, und damit ist nicht von vornherein klar, welche Züge diejenigen waren, die zum Sieg geführt haben. Am Anfang wusste TD -Gammon mit Ausnahme der Regeln nichts über das Spiel. Indem das Programm selbst viele Partien spielte und mit Hilfe des TD -Lernens eine Wertfunktion zur Beurteilung von Spielstellungen erzeugte, kam es vom Anfänger- bis zum Könnerniveau voran und machte sich dabei subtile Strategien zu eigen, wie sie in ganz ähnlicher Form auch von Menschen genutzt werden. Nachdem das Programm eine Million Mal gespielt hatte, war es auf Meisterschaftsebene angelangt und entdeckte selbst ein neues Stellungsspiel, das auch menschliche Experten in Erstaunen versetzte. Mit ähnlichen Methoden haben Computerprogramme auch beim Go-Spiel erstaunliche Leistungsstufen erreicht und sind auf dem Weg zum Profiniveau.
Wenn die Zahl der möglichen Ergebnisse aus kombinatorischen Gründen explosionsartig wächst, ist es hilfreich, sehr selektiv auszudünnen. Mit Aufmerksamkeit und Kurzzeitgedächtnis können wir uns auf die wichtigsten Teile eines Problems konzentrieren. Das Lernen durch Verstärkung wird dann von unserem deklarativen Gedächtnis überlagert, das einzelne Objekte und Ereignisse weiterverfolgt. Als sich bei den Primaten das große Gehirn entwickelte, verstärkte sich mit der gewachsenen Gedächtniskapazität auch die Fähigkeit, komplexe Entscheidungen zu treffen, was zu längeren Handlungsketten zum Erreichen von Zielen führte. Wir haben als einzige Spezies ein Bildungssystem entwickelt und unterziehen uns selbst jahrelangem Unterricht und Prüfungen. Der Lohn kann weit in die entfernte Zukunft (in manchen Fällen sogar in ein imaginäres Leben nach dem Tode) verschoben sein – ein Tribut an die wirksame Verhaltenssteuerung durch das Dopamin.
Als in den 1960 er Jahren die Revolution der Kognitionsforschung begann, konnten sich auch die klügsten Köpfe nicht ausmalen, dass das Lernen durch Verstärkung zur Grundlage intelligenter Verhaltensweisen werden könnte. Aber auf kluge Köpfe kann man sich nicht verlassen. Die Natur ist klüger als wir.
Michael I. Norton
Aufgezwungene Zufälligkeit
Außerordentlicher Professor für Betriebswirtschaft und Marvin Bower Fellow, Harvard Business School
Der 2011 verstorbene Paul Meier wurde vor allem mit der Einführung des Kaplan-Meier-Schätzers bekannt. Meier war aber auch entscheidend daran beteiligt, dass ein unschätzbar wertvolles Erklärungshilfsmittel allgemein in Gebrauch kam: das
Weitere Kostenlose Bücher