Bücher online kostenlos Kostenlos Online Lesen
Die Formel des Lebens: Von der Zelle zur Zivilisation (German Edition)

Die Formel des Lebens: Von der Zelle zur Zivilisation (German Edition)

Titel: Die Formel des Lebens: Von der Zelle zur Zivilisation (German Edition) Kostenlos Bücher Online Lesen
Autoren: Enrico Coen
Vom Netzwerk:
hört.
    Dieses Schema des TD-Learnings erklärt, wie es zu der Verschiebung des Feuerungszeitpunkts bei den Dopamin-ausschüttenden Neuronen kommen kann, die Romo und Schultz untersucht hatten. Diesen Neuronen entsprechen in unserem Schema die Diskrepanzneurone. Anfangs feuert das Diskrepanzneuron genau dann stark, wenn die Belohnung ertastet wird; nach dem Lernen aber wird das erhöhte Feuern zeitlich vorverschoben auf den Zeitpunkt, zu dem der Affe die Tür aufgehen hört; und genau eine solche Vorverschiebung lässt sich an den Dopamin-ausschüttenden Neuronen beobachten – sie verhalten sich also wie die Diskrepanzneurone in unserem Schema. Das setzt voraus, dass die Dopamin-Ausschüttung an den Neuronenenden irgendwie die Synapsenstärke fördern muss. Wie genau das funktioniert, ist unbekannt. Vielleicht wirkt sich die Dopamin-Ausschüttung direkt auf die synaptischen Inputs aus, vielleicht wirkt sie auch weniger direkt. Wichtig ist jedenfalls, dass das Feuern dieser Neurone irgendwie zu einer Veränderung der Synapsenstärken führt.
    Welchen Nutzen verschafft nun dieses System dem Affen? Damit das Lernen etwas bringt, muss es mit den Handlungen des Affen verbunden sein. Wir erreichen das über eine Verbindung zwischen dem Output des Diskrepanzneurons und den Armbewegungen des Affen (der Pfeil in Abb. 55). Anfangs sind die Armbewegungen des Affen nicht mit dem Türgeräusch verbunden. Nach der Konditionierung aber bewegt der Affe den Arm, wenn er die Tür gehen hört. Nach dem Schema des TD-Learnings beruht das darauf, dass stärkeres Feuern des Diskrepanzneurons Handlungen auslöst, die geeignet sind, die Wahrscheinlichkeit einer Belohnung zu erhöhen. Zurückzuführen ist das womöglich auf einen Prozess synaptischer Verstärkung, wie er bereits für das Erwartungsneuron beschrieben wurde,nur dass jetzt neuronale Verbindungen zu bestimmten Handlungen betroffen sind und nicht zu externen Signalen. (Wie solche Handlungen verstärkt werden können, werden wir im nächsten Kapitel untersuchen.) Fakt ist jedenfalls, dass die Reizung des Diskrepanzneurons durch das Türgeräusch beim Affen eine Armbewegung auslöst, mit der er sich das Futter holt.
    Bevor wir mit dem TD-Learning abschließen, möchte ich noch etwas klarstellen, was ich bisher beschönigt habe. Ich bin davon ausgegangen, dass das Feuern des Erwartungsneurons nachlässt, sobald die Belohnung erteilt wird. Das stellt sicher, dass die hemmende Wirkung des Erwartungsneurons den stimulierenden Effekt der Belohnung ausgleicht. Warum aber sollte die Aktivität des Erwartungsneurons genau dann sinken, wenn die Belohnung erteilt wird? Den Befürwortern des TD-Learnings zufolge liegt das daran, dass das Gehirn die Abfolge oder Dauer von Signalen messen kann und nicht nur ihre Stärke. Wir könnten uns etwa vorstellen, dass das Türgeräusch im Gehirn eine Folge von Feuerungsmustern verschiedener Dauer auslöst – manche dauern kurz, andere länger. 68 Man kann sich vorstellen, das Türgeräusch würde im Gehirn mehrmals nachhallen und damit dem Erwartungsneuron eine Reihe von Inputs zuführen. Wir können es so anlegen, dass nur das Input-Signal, das bis zur Erteilung der Belohnung andauert, an seiner Synapse verstärkt wird; länger oder kürzer andauernde Inputs werden vom Diskrepanzneuron nicht gestärkt. Dieses System würde sicherstellen, dass das Feuern des Erwartungsneurons mit dem Eingang des Belohnungssignals absinkt, weil ja nur Inputs mit dieser Eigenschaft gestärkt werden.
    Solche Mechanismen der zeitlichen Abfolge wirken vielleicht konstruiert; sie erklären aber eine wichtige Beobachtung auf neuronaler Ebene. Nehmen wir an, nach der Konditionierung wird dem Affen die Belohnung vorenthalten. Der Affe greift in die Box, findet dort aber zu seiner Enttäuschung keinen Apfel. Schultz und seine Mitarbeiter stellten fest, dass in dieser Situation die Feuerungsrate der Dopamin-ausschüttenden Neurone genau zu dem Zeitpunkt absinkt, zu dem der Affe eigentlich den Apfel hätte ertasten sollen. Anders gesagt, das Feuern wird genau dann gehemmt, wenn der Affe die Belohnung erwartet hätte. Das entspricht ganz dem Schema des TD-Learnings, weil das Feuern des Erwartungsneurons wirklich genauzu diesem Zeitpunkt nachlässt. Dieses Absinken führt zur Hemmung des Diskrepanzneurons, die aber diesmal nicht durch ein Belohnungssignal ausgeglichen wird (es ist ja kein Apfel da): Die Feuerungsrate des Diskrepanzneurons sinkt damit unter ihren normalen Wert. Das

Weitere Kostenlose Bücher