Bücher online kostenlos Kostenlos Online Lesen
Die Formel des Lebens: Von der Zelle zur Zivilisation (German Edition)

Die Formel des Lebens: Von der Zelle zur Zivilisation (German Edition)

Titel: Die Formel des Lebens: Von der Zelle zur Zivilisation (German Edition) Kostenlos Bücher Online Lesen
Autoren: Enrico Coen
Vom Netzwerk:
weniger starke Feuern des Diskrepanzneurons entspricht der Enttäuschung des Affen, so wie erhöhtes Feuern einer angenehmen Überraschung entspricht.
PAWLOW UND STRAFE
    Das TD-Learning stellt einen allgemeinen Mechanismus für prädiktives Lernen dar, der auf einem neuronalen Zusammenspiel zwischen Erwartungen, Belohnungen und Diskrepanzen beruht. Dasselbe Schema kann auch das Verhalten des Pawlow’schen Hundes erklären. Anfangs kommt das Essen für den Hund aus heiterem Himmel, ohne dass er es erwartet hätte. Diese Diskrepanz zwischen Erwartung und Belohnung stärkt die synaptischen Verbindungen mit unmittelbar vorausgehenden Signalen, etwa dem Klingelton. Dadurch steigt die Feuerungsrate der Erwartungsneurone beim Hund an, wenn er die Klingel hört; damit verschiebt sich die Aktivität des Diskrepanzneurons vom Zeitpunkt der Futtergabe auf den des Klingeltons. Der Hauptunterschied zum Beispiel mit den Affen liegt darin, dass das Diskrepanzneuron in diesem Fall keine Armbewegung, sondern erhöhten Speichelfluss auslöst. Damit ist der Pawlow’sche Hund ein einfacherer Fall als der Affe, weil die Verbindung zwischen Diskrepanz und Handlung nicht erlernt werden muss – die Reaktion der Speichelbildung existierte bereits vor der Konditionierung. Fälle wie den Pawlow’schen Hund, wo die Reaktion bereits vorher existiert, bezeichnen wir als klassische Konditionierung. Fälle wie den des Affen, der sich ein Stück Apfel holen muss, bei dem also auch die Handlung erlernt wird, nennen wir operante oder instrumentelle Konditionierung. 69 TD-Learning lässt sich auf beide Formen der Konditionierung anwenden.
    Das TD-Learning kann auch erklären, warum die Konditionierung mit einem prädiktiven Signal, etwa einer Berührung an der Pfote, eine zusätzliche Konditionierung mit einem anderen Signal, etwa einem Klingelton, blockieren kann. Wenn ein prädiktives Signal wie eine Berührung an der Pfote erlernt wurde, besteht zum Zeitpunkt der Belohnung keine Diskrepanz mehr (und das Diskrepanzneuron wird nicht gereizt). Synapsen für ein Signal, das nun gleichzeitig mit der Berührung an der Pfote eingeht, werden also nicht mehr verstärkt. Das System hat bereits erlernt, was zu erwarten ist; Inputs ohne weitere Vorhersagekraft werden nicht gestärkt.
    Bisher habe ich immer Beispiele mit Belohnung, etwa einer Futtergabe, beschrieben. Dasselbe Schema lässt sich aber auch auf das Gegenteil von Belohnung anwenden, nämlich auf Strafe. Nehmen wir an, nach einem Lichtblitz erhält der Affe einen Elektroschock und keinen Apfel, wenn er die Hand in die Box steckt. Der Affe wird sehr schnell lernen, seine Hand nach einem Lichtblitz nicht in die Box zu stecken. Um zu diesem Ergebnis zu gelangen, können wir dasselbe Schema des TD-Learnings verwenden, allerdings mit einem anderen Typ Diskrepanzneuron. Statt von Belohnungen wie dem Ertasten eines Apfelstücks würde dieses Diskrepanzneuron Inputs von gegenteiligen Signalen wie Elektroschocks erhalten. Ein weiterer Unterschied besteht darin, dass die Handlung, die aus dem Feuern des Diskrepanzneurons resultiert, nicht angeregt, sondern vermieden wird. Der Lernvorgang liefe ab wie zuvor, aber Handlungen, die dem Feuern des Diskrepanzneurons unmittelbar vorausgehen, würden nun vermieden. Der Affe würde also lernen, bei einem Lichtblitz gerade nicht in die Box zu fassen. Obwohl dieses Schema im Prinzip funktioniert, müssen die Neurone, die ihm zu Grunde liegen, erst noch klar identifiziert werden. Daher wissen wir über die neuronalen Einzelheiten der Strafe im Vergleich zum Lernen durch Belohnung relativ wenig. 70
    Das Modell des TD-Learnings erklärt derzeit am besten, wie prädiktives Lernen mittels neuronaler Wechselwirkungen zu Stande kommt. Ich möchte dieses Beispiel nun dafür nutzen, die Grundprinzipien des Lernens zu untersuchen. In den folgenden Ausführungen benutze ich Termini, die ich auch für Evolution und biologische Entwicklung verwendet habe, weil ich gemeinsame Grundprinzipien aufzeigen will; aber natürlich unterscheiden sich diese Prozesse auch in vielerlei Hinsicht.
G RUNDPRINZIPIEN
    Zu größeren Veränderungen der Synapsenstärke kommt es beim TD-Learning nicht auf Anhieb; sie brauchen die kumulative Wirkung wiederholter Erfahrungen. Wir haben es mit einer Population von Ereignissen zu tun, also vielen Fällen von sich öffnenden Türen und Belohnungen durch Futtergabe. Wie wir oben festgestellt haben, befindet sich eine Population immer in einem Kontext,

Weitere Kostenlose Bücher