close

Anmelden

Neues Passwort anfordern?

Anmeldung mit OpenID

Kalveram, K. Th. (1998) Der motorische Apparat. In - Heinrich-Heine

EinbettenHerunterladen
Kalveram, K. Th. (1998) Der motorische Apparat. In: K. Th. Kalveram, Wie das
Individuum mit seiner Umwelt interagiert. Lengerich: Pabst (Kap. 4, S. 165-249)
4 Motorischer Apparat
4.1 Bewegungen und ihre Kontrolle
Unter Motorik kann der Einsatz von Muskelkraft verstanden werden, unter Sensumotorik die Wechselwirkung zwischen Sensorik und Motorik während des Einsatzes
von Muskelkraft. Dieses ist eine sehr allgemeine Feststellung, die ehe verschleiert
als offenlegt, welch grandiose Leistung Mensch und Tier vollbringen, wenn sie sich
geordnet bewegen. Richtig sich bewegen können bedeutet, die Physik des eigenen
Körpers und der Umwelt genau zu kennen, zu beherrschen und so einzusetzen, daß
gewünschte Wirkungen herbeigeführt werden und Unerwünschtem ausgewichen
wird. Wie dies im einzelnen geschieht, ist dem bewußten Erleben, also der Selbstbeobachtung, weitgehend verschlossen. Man kann vermuten, daß viele von den für die
neuronale Kontrolle erforderlichen informationsverarbeitenden Prozessen so kompliziert sind, daß sie die Kapazität des Cortex bei weitem übersteigen und daher an
autonom arbeitende Untereinheiten wie Rückenmark, Basalganglien und Kleinhirn
übertragen werden. Es ist jedoch nicht die Aufgabe dieses Kapitels, über die anatomischen Orte zu spekulieren, an denen solche Berechnungen stattfinden. Vielmehr
soll eine funktionale Analyse angestellt werden, aus der die zu erbringenden
Kontrollaufgaben zu erkennen sind; denn es kann angenommen werden, daß
motorische Kontrolle nur verstanden werden kann, wenn die Physik von Körper und
manipulierter Umwelt verstanden ist. Das "funktionelle System" der Sensumotorik ist
eine Ganzheit "und nicht, wie man häufig annimmt, letzten Endes nur ein Gebilde des
Zentralnervensystems" (Anochin 1967 S.13).
4.1.1 Einteilung nach funktionalen Gesichtspunkten
Motorische Aktivität dient offenkundig unterschiedlichen Aufgaben: WerkzeugAlgorithmen etwa realisieren 'selbstgestellte' perzeptive Ziele, z.B. im Rahmen der
Handhabung von Arbeitsgeräten oder sonstiger Verrichtungen. Halte-Algorithmen
sind dadurch gekennzeichnet, daß sie sensorische oder perzeptive Istwerte
entgegen einer ständig von außen einwirkenden Kraft, etwa der Schwerkraft, auf
intern vorgegebenen Niveaus halten, was beispielsweise zum Aufrechterhalten einer
bestimmten Körperstellung erforderlich ist. Kompensations-Algorithmen dienen dazu,
Abweichungen von sensorischen Vorgaben angesichts bevorstehender, aber
vorhersehbarer, störender Einwirkungen garnicht erst eintreten zu lassen. Die
1
Lokomotorik ermöglicht einen Ortswechsel, die Signal-Motorik steht im Dienst der
Kommunikation mit Artgenossen durch Mimik und Gestik, die Artikulationsmotorik
ermöglicht verbale Kommunikation, die Ortungs- und Explorationsmotorik dient der
Wahrnehmung (z.B. Augen- und Ohrenbewegungen bei Orientierungsreaktionen,
seitliche Kopfbewegungen zur Parallaxen-Erzeugung, Artikulatorbewegungen zur
Echo-Ortung, Tast- oder Testbewegungen zur Festellung von Form oder Gewicht
eines Gegenstandes). Daneben gibt es noch andere motorische Aktivitäten, z.B.
solche, die für Transportvorgänge im gastro-intestinalen oder kardiovaskulären
System zuständig sind. Es ist dies jedoch keine überschneidungsfreie Systematik;
eine beobachtete Bewegung kann mehrere dieser Zwecke verfolgen. Z.B. sind bei
einem Ortwechsel sehr wohl Zielvorstellungen über den anzustrebenen neuen Ort
vorhanden, während Haltealgorithmen angesichts der Schwerkraft die Lokomotion
erst ermöglichen und Kompensationsalgorithmen für die Planung der Trajektorie, die
zum Ziel führt, angewendet werden.
Der Akzent liegt in diesem Kapitel auf der 'Werkzeug-Motorik', welche die
Realisierung von 'selbstgestellten' sensorischen Zielen durch efferente Aktivität zu
besorgen hat. Aufgaben dieser Art seien dem nun zu behandelnden motorischen
Apparat zugeschrieben. Die Ziele selbst werden vom taktischen Apparat, auf den im
nächsten Kapitel näher eingegangen wird, bereitgestellt und gehen letztendlich auf
den vom evaluativ-volitionalen Apparat ausgegebenen globalen perzeptiven Sollwert
(PZ-Soll) zurück.
4.1.2 Einteilung nach phänomenologischen Gesichtspunkten
Neben der oben erwähnten aufgabenbezogenen Einteilung kann auch die
Phänomenologie zur Klassifizierung motorischer Abläufe beitragen. So können
Bewegungen nach Beobachtungen der Verhaltensbiologen (vgl. hierzu etwa Lorenz
1939, 1966; Eibl-Eibesfeld 1987) z.B. eingeteilt werden in
1. Automatismen (fixed action patterns)
2. Taxien
3. Appetenzverhalten.
4.1.2.1 Automatismen
Automatismen werden als stereotyp und automatisch ablaufende Bewegungen
beschrieben, die weder von sensorischen Meldungen noch vom Erfolg her gesteuert
werden. Sie werden von spezifischen sensorischen Konstellationen (den
Schlüsselreizen) lediglich ausgelöst (getriggert), können aber nach erfolgter
Triggerung unter Beibehaltung der relativen Form mit verschiedenenen Amplituden
2
und verschiedenen Geschwindigkeiten ablaufen. Automatismen können erworben
oder angeboren sein. In letzterem Fall werden sie auch als 'Erbkoordinationen'
bezeichnet.
Regeltechnisch gesehen kann man einen Automatismus demnach auf einen
vorprogrammierten Funktionsgeber zurückführen, welcher auf ein Startsignal hin,
bzw. auf die Wegnahme einer Hemmung, ein bestimmtes zeitlich erstrecktes
efferentes Muster ausgibt. Von daher betrachtet legen Automatismen den Ablauf von
Bewegungen bereits vor Bewegungsbeginn fest.
4.1.2.2 Taxien
Taxien werden als orientierende Einzelbewegungen oder Richtwendungen
beschrieben. Sie führen bei einem quantifizierten sensorischen Signal zu einer
entsprechend quantitativ abgestuften motorischen Antwort, z.B. zu einer
(ungefähren) räumlichen Ausrichtung der Körperlängsachse des Tieres auf ein
sensorisch geortetes Beutetier. Systemtheoretisch sind Taxien also als Steuerglieder
aufzufassen, welche als offene Wirkungsketten und nicht als Regelkreise arbeiten.
Solche Systeme "reagieren" auf eine Änderung ihrer Eingangsgröße mit einer davon
festgelegten Änderung der Ausgangsgröße. Es erfolgt jedoch auf dieser
Betrachtungsebene noch keine Erfolgskontrolle, d.h ein Vergleich des
Ausgangsignals mit einem intern (neuronal) repräsentierten Sollwert (Ziel) zum
Zwecke der Korrektur eines eventuell gegebenen Fehlers findet nicht statt.
4.1.2.3 Appetenzverhalten
Appetenzverhalten schließlich wird als ein spezifisches Suchverhalten nach der
sensorischen Konstellation, welche einen bestimmten Automatismus oder eine
Erbkoordination auslöst, gekennzeichnet. Es ist variabel und anpassungsfähig und
versetzt das Tier z.B. in die Lage, Umwege zu meistern, die zwischen ihm und dem
angestrebten Ziel liegen, oder mehr oder weniger systematische Einflüsse
auszugleichen, welche die Zielgenauigkeit ansonsten beeinträchtigen würden.
Solches Verhalten läuft also offensichtlich im Rahmen von Regelkreisen ab, in denen
z.B. ein Schlüsselreiz mitsamt der ihn einbettenden Situation als ein sensorischer
Sollwert (Ziel) intern vorgegeben ist und die Handlungsfolge darauf gerichtet ist, den
sensorischen Istwert an den sensorischen Sollwert anzunähern und die
Abweichungen möglichst klein zu halten. In diesem Sinne handelt es sich beim
Appetenzverhalten um zielgerichtetes Bewegen im eigentlichen Sinne.
3
Zielgerichtetes Bewegen setzt die Fähigkeit zu erfolgsgesteuertem Lernen
voraus. Hierbei werden motorische Aktionen hinsichtlich intern repräsentierter
Kriterien optimiert. Außer der Verbesserung der Zielgenauigkeit kommen als
Optimierungskriterien z.B. die Verringerung des organismischen Kraft- bzw.
Energieaufwands oder die Verminderung des Kontrollaufwands in Betracht. Wegen
der internen Repräsentation dieser Kriterien werden solche Lernvorgänge zuweilen
auch unter der Bezeichnung ‘Selbstoptimierung’ zusammengefaßt.
Inzwischen wurden zentrale Mustergeneratoren (central pattern generators) als
neurophysiologische Substrate von Automatismen mehrfach nachgewiesen oder
glaubhaft gemacht (v. Holst 1938; Grillner 1975, Miller & Selverstone 1985, Collins &
Stuart 1993, Cruse 1990). Taxiserzeugende neuronale Verschaltungen, oft auch als
Reflexbögen bezeichnet, wurden ebenfalls verschiedentlich aufgeklärt. Der Faktor,
welcher die Stärke des sensorischen Reizes mit der Amplitude der reflektorischen
motorischen Reaktion verknüpft, wird meist als Verstärkung (gain) des Reflexes
bezeichnet. Appetenzverhalten wurde in einer Reihe von Kontexten untersucht, z.B.
als 'sensumotorisches Lernen', wenn Re-Adaptionsvorgänge bei künstlich
verändertem Zusammenhang zwischen motorischen Aktionen und visueller
Rückmeldung im Vordergrund des Interesses standen, oder als instrumentelles
(operantes) Konditionieren, wenn es um die Auswahl geeigneter Verhaltensweisen
unter vorgegebenen äußeren Bedingungen ging.
4.1.2.4 Motorischer Algorithmus oder motorisches Programm?
Hinsichtlich der Natur der den Bewegungen unterliegenden Kontrollprozesse wurden
gelegentlich extreme Positionen vertreten (zusammenfassend: Heuer 1983 S. 1213): Vor allem ältere Auffassungen betrachteten Bewegungen und Bewegungsfolgen
im Grunde nur im Rahmen von Reflexen und Reflexketten, wobei der Gesichtspunkt
der Steuerkette (also der Taxis im obigen Sinne) überbetont wurde. Andere Autoren
führten eine Bewegung allein auf ein motorisches Programm zurück, worunter man
eine Folge von motorischen Kommandos verstand, welche, vor Bewegungsbeginn
bereitgestellt, den Ablauf der Bewegung ohne periphere (Rück=)Meldungen steuern
(Keele 1968), eine Definition, die in dieser strengen Form ersichtlich nur auf den
Automatismus zutrifft. Schließlich wurden Bewegungen einseitig unter dem Aspekt
der Zielgerichtetheit bzw. Regelung (also im Rahmen funktional appetenter
Handlungen) gesehen und z.B. im Rahmen von Prismenexperimenten komplexe
Anpassungs- und Lernvorgänge im motorischen Apparat untersucht (Held & Hein
1963, Kohler 1964, 1966).
Tatsächlich dürften bei den meisten Bewegungsvorgängen sowohl
vorprogrammierte (automatische) als auch gesteuerte (taxische) und geregelte
4
(appetente) Elemente gleichzeitig auftreten bzw. ineinander verflochten sein. Lorenz
& Tinbergen (1939) beschreiben z.B., wie bei der Ei-Roll-Bewegung Erbkoordination,
Taxis und Appetenzverhalten zusammen (verschränkt) vorkommen. Auch wenn
phänomenales Appetenzverhalten im Vordergrund des Interesses steht, wird man mit
Sicherheit auch auf automatische und taxische Komponenten stoßen, wobei
zusätzlich Möglichkeiten für das Hineingreifen von am Erfolg orientierten
Lernprozessen gegeben sein müssen. Bei Automatismen sind es die Parameter
'Amplitude' (Intensität) und 'Dauer', welche einer erfolgsorientierten Verstellung
prinzipiell zugänglich sind. Bei Taxien ist es der Parameter 'gain' des entsprechenden
Reflexes, der für eine solche Verstellung infrage kommt. Beispiele für interne
Erfolgskriterien sind, wie schon gesagt, die Erhöhung der Treffergenauigkeit bei einer
Zielbewegung, oder die Herabsetzung der während der Bewegung in den beteiligten
Muskeln verbrauchten Energie.
Die mit Blick auf die Bewegungstypen in der Regel komplexe Struktur einer
Bewegung ist der Grund dafür, daß bislang vermieden worden ist, den Ausdruck
"motorisches Programm" in diesem Zusammenhang zu verwenden. Denn diese
Bezeichnung
gibt nach dem eben gesagten die tatsächliche Art der
Bewegungskontrolle nur unvollkommen - ja sogar mißverständlich - wieder, weil sie
zu sehr auf den Teilaspekt des Automatismus abhebt. Die Verwendung des Wortes
"Programm" legt jedenfalls nahe, daß die damit bezeichnete motorische Aktivität bei
Wiederholungen unter sonst gleichen Bedingungen zu physikalisch identischen
Abläufen führt, was man in der Wirklichkeit nur bei Erbkoordinationen bzw.
Automatismen und das auch nur in Spezialfällen beobachten kann. Die bessere
Bezeichnung für die spezielle "Anordnung von Regeln und Anweisungen", durch
welche z.B. ein perzeptives bzw. sensorisches Ziel konkret herbeiführt wird, ist daher
"motorischer Algorithmus". Die Elemente, die in einem solchen Algorithmus
zusammenwirken, können dann z.B. motorische Programme (im Sinne von
Automatismen bzw. Mustergeneratoren), Steuerketten (im Sinne von Taxien und
Reflexen) und Regelprozesse (im Sinne von Parameter-Adjustierung) sein. Eine
Bewegung ist dann das Ergebnis des Zusammenwirkens dieser drei verschiedenen
motorischen Elemente mit konkret vorliegenden Umweltgegebenheiten; für die
neuronalen Kontrollprozesse, die einer solchen Bewegung zu Grunde liegen, sollte
man daher nicht wiederum die Bezeichnung "motorisches Programm" verwenden.
4.1.3 Die enge Wechselbeziehung zwischen Motorik und Sensorik
In Abhandlungen über Motorik steht vielfach die Aktuatorfunktion im Vordergrund, dh.
die herbeigeführten Bewegungen werden im Rahmen der Individuum-UmweltInteraktion vorwiegend als Output des Individuums angesehen, wobei dem
sensorischen Input dann Auslöser- und/oder Überwachungsfunktionen zugeordnet
werden. Dabei wird gelegentlich nicht hinreichend beachtet, daß vom Individuum
5
erzeugte Bewegungen, z.B. eines Sinnesorgans, wiederum Rückwirkungen auf den
sensorischen Input haben, der auf eben dieses Sinnesorgan zurückgeht. Diese
führen dazu , daß eine sensorische Meldung sowohl auf die eigene motorische
Aktivität des Individuums als auch auf die Veränderung einer Größe in der Umwelt,
welche unabhängig von den Einwirkungen des Individuums besteht, zurückgehen
kann.
Beispielsweise kann die Meldung eines in der Netzhaut des Auges
angenommenen Geschwindigkeitsdetektors darauf zurückgehen, daß sich das Abbild
eines bewegten Gegenstandes auf der Netzhaut verschiebt, oder daß sich die
Netzhaut bei unbewegtem Gegenstand infolge einer Augendrehung "unter" dem
ortfesten Abbild des Gegenstandes verschiebt; denkbar ist auch, daß beides
gleichzeitig geschieht. Aus der Afferenz alleine sind die beiden verschiedenen
Ursachen für die Detektormeldung nicht zu erschließen. Bei der Bestimmung der
"wahren" Geschwindigkeit des Gegenstandes muß daher die Eigenbewegung des
Auges in Rechnung gestellt werden. Ein anderes Beispiel ist die Meldung des
Statolithenapparats, die den Winkel angibt, den die Achse dieses Apparats mit der
Schwerkraftrichtung bildet. Diese Meldung ändert sich sowohl, wenn der Kopf bei
unbewegtem Rumpf geneigt wird, als auch dann, wenn die Rumpforientierung zur
Schwerkraft geändert wird, der Kopf aber relativ zum Rumpf fixiert bleibt. Bei der
Bestimmung des Winkels zwischen der Schwerkraftrichtung und der
Körperlängsachse müssen daher die Meldungen des Statolithenapparats
"rechnerisch" um die Kopfneigungen bereinigt werden. In beiden Beispielen muß also
eine umweltbezogene Größe aus Sinnesdaten ermittelt werden, die auf ein
eigenbewegliches Sinnesorgan zurückgehen, d.h. auf einen Detektor, welcher nicht
fest an die zu ermittelnde Größe gekoppelt ist. Wahrnehmungstechnisch gesehen
handelt es sich bei dieser Fremd- Eigendifferenzierung daher um die Erbringung
einer Konstanzleistung.
Ein ähnlicher, wenngleich nicht identischer Sachverhalt ist gegeben, wenn eine
umweltbezogene sensorische Meldung zwar eigenbewegungsbereinigt vorliegt, sich
aber sowohl spontan als auch unter der Einwirkung des Individuums selbst
verändern kann. Nunmehr steht dasselbe Problem wie vorhin zur Lösung an, nur auf
einer anderen (höheren) Ebene. Ein Beispiel hierfür ist die visuelle Position der
Fingerspitze, erfaßt in (eigenbewegungsbereinigten) umweltbezogenen Koordinaten.
Diese Position wird normalerweise mittels der Willkürmotorik verstellt, meist so, daß
sie mit einer vorgegebenen Zielposition in Deckung gebracht wird. Die Fingerspitze
kann jedoch auch von Einwirkungen ausgelenkt werden, welche das Indviduum nicht
selbst verursacht hat, sondern die unabhängig von ihm sind, etwa zufallsbedingtes
Angestoßenwerden durch Dritte. Eigenbewegungsbereinigte Meldungen über
Änderungen von Umweltgrößen können also im Prinzip ebenfalls selbstverursacht
oder fremdverursacht sein. Obwohl letztere einteilbar sind in einerseits in
6
unsystematische und unvorhergesehene, andererseits in systematische und
vorhersagbare, spricht man in beiden Fällen in wenig qualifizierender Weise meist
von "Störungen".
Die Unterscheidung zwischen all diesen Signalarten ist eine für eigenaktive
Organismen lebenswichtige Frage. Denn auf die gleiche sensorische Konstellation
muß ggf. in sehr unterschiedlicher Weise reagiert werden, je nachdem ob sie selbstoder fremderzeugt ist: Eine Faust, die sich systematisch dem Auge nähert, erfordert,
wenn es die eigene ist, eine andere motorische Aktivität als dann, wenn es sich um
eine fremde handelt. Für den Organismus besteht entsprechend bei sensorischen
Meldungen ständig das Problem der Fremd-Eigen-Differenzierung auf verschiedenen
Ebenen.
Wie löst der Organismus diese Probleme, kommt also zu einer zuverlässigen
Trennung von umwelt- und selbsterzeugten sensorische Zuflüssen und
Wahrnehmungsinhalten?
In Beantwortung dieser Frage wurden Begriffe wie "rückläufige Afferentation"
(Anochin 1967; später: "reverse afferentation" in Anokhin 1974) oder - im Rahmen
des Reafferenzprinzips - "Exafferenz", "Reafferenz" und "Efferenzkopie" (v. Holst und
Mittelstaedt
1950)
eingeführt.
Weiterführende
Ansätze
waren
der
"Korrelationsspeicher" (Hein & Held 1962) oder das "Sensumotorische Selbst"
(Kalveram & Merz 1976) und seine "Umkehrung" (Kalveram 1981). Im folgenden
Abschnitt wird das ursprüngliche Reafferenzprinzip zunächst dargelegt, sodann
modifiziert. Im darauf folgenden Kapitel dann wird dieses Prinzip durch Hinzunahme
des Konzepts der Werkzeugtransformation und ihrer Inversen erweitert.
4.1.3.1 Das ursprüngliche Reafferenzprinzip
Wie man sich grundsätzlich die Fremd-Eigen-Differenzierung vorstellen kann, zeigt
das in Abb.4.1 in ein Blockschaltbild umgesetzte Reafferenzprinzip. Hier werden, um
Verwechselungen zu vermeiden, physikalisch definierte Signale, welche auf ein
Sinnesorgan treffen und auf nicht vom Individuum herbeigeführte Änderungen in der
Umwelt zurückgehen, nach Kalveram & Merz (1976) allochthone oder Fremd-Signale
genannt, eben weil sie durch Fremdeinwirkung entstehen. Physikalische Signale,
welche durch selbst-initiierte Handlungen des Individuums entstehen, können
entsprechend als autochthone oder Eigen-Signale bezeichnet werden, da sie ihre
Ursache in der Eigen-Aktivität des Organismus haben. Exafferenzen sind dann die
neuronalen Entsprechungen der Fremdsignale und Reafferenzen diejenigen der
7
Eigensignale. Im Sinnesorgan vermischen sich die beiden Signalarten, so daß auch
die insgesamt zufließende Afferenz ein Gemisch von Exafferenz und Reafferenz ist.
Bezogen auf die Motorik sollten also die Eigensignale Auskunft über den
physikalischen Bewegungszustand des eigenen Körpers und seiner Glieder geben
und daher insbesondere auch beim motorischen Lernen eine entscheidende Rolle
spielen. Die Fremdsignale hingegen enthalten die Information über den Zustand der
Umwelt, der ggf. reaktiv zu Bewegungen Anlaß gibt oder auf den aktive
(eigeninitiierte) Bewegungen zu beziehen sind.
Aufgabe der Anordnung in Abb.4.1 ist, ein umweltbezogenes Fremdsignal x1
aus den Meldungen a eines Sinnesorgans zu ermitteln, welches selbst
eigenbeweglich ist. In der ursprünglichen Fassung des Reafferenzprinzips (v. Holst
und Mittelstaedt 1950, z.B. S.467) war der gestrichelt umrandete Block insgesamt als
Effektor bezeichnet und nicht weiter unterteilt, auch fehlte die explizite Angabe der
mit S1 bezeichneten Funktionseinheit, welche von Hein & Held (1962) als
'Korrelationsspeicher' eingeführt wurde und später (Kalveram 1981) als
Vorwärtsmodell der Effektorwirkung aufgefaßt und von dessen Umkehrung
abgehoben wurde.
Abbildung 4.1 : Ursprüngliches Reafferenzmodell
Auf ein Kommando z (K bei v. Holst & Mittelstaedt 1950) wird eine Efferenz e1 an die
Peripherie geschickt, welche die afferente Meldung a nach sich zieht. a ist die
Summe aus der Reafferenz, das ist - wie gesagt - der Anteil der Afferenz, welcher
allein auf die Efferenz e1 zurückgeht, und der Exafferenz, welche der eigentlich zu
erfassenden Umweltgröße x1 entspricht. a ist damit nicht eindeutig auf die zu
messende Umweltgröße x1 beziehbar. Die aufgrund der eigenen Aktivität zu
erwartende Reafferenz kann aber aus der Efferenz e1 vorhergesagt werden. Dazu ist
von e1 eine 'Efferenzkopie' abzuzweigen, welche - nach Passage der als
Korrelationsspeicher S 1 bezeichneten Funktionseinheit - als Schätzwert r'1 für die
Reafferenz genommen werden kann. Die in Abb.4.1
vorgenommene
Zwischenschaltung von S1 soll lediglich hervorheben, daß die an die Peripherie
geschickte Efferenz im allgemeinen erst nach einem mehr oder weniger
komplizierten Umkodierungsverfahren einen Schätzwert für die Reafferenz liefert.
Wenn jedoch, wie offensichtlich bei von Holst und Mittelstaedt, Efferenz e 1 und
Eigensignal r1 (bzw. die Reafferenzschätzung r'1) als proportional zueinander
angenommen werden, ist diese Funktionseinheit natürlich entbehrlich. Zieht man den
von S 1 ausgegebenen Reafferanz-Schätzwert r' 1 von a1 ab, erhält man mit x' 1
einen Schätzwert für die Exafferenz, der um so besser ist, je genauer die Reafferenz
mittels der Efferenzkopie geschätzt wird. Das ist die wesentliche Aussage des
8
Reafferenzprinzips. Es zeigt auf genial einfache Weise, wie der Einfluß der
Eigenbewegung eines Detektors, der die mit der Eigenbewegung konfundierte
Gesamtafferenz a1 abgibt, so in Rechnung gestellt werden kann, daß das eigentlich
interessierende Fremdsignal x1 durch die Exafferenz x'1 abgebildet wird. Das
Reafferenzprinzip beschreibt damit eine bestimmte Konstanzleistung des
Wahrnehmungsapparates, die dadurch erbracht wird, daß die durch Eigenbewegung
verursachte Reafferenz kompensiert wird, und zwar noch auf der Ebene der
Verarbeitung sensorieller Daten. Die Reafferenz ist hier also eine Meldung, die zwar
auf die eigene motorische Aktivität zurückgeht, die aber nicht als Rückmeldung der
sensorischen Konsequenzen der Bewegung im Rahmen einer Erfolgskontrolle
verwendet wird.
Die Autoren koppeln nunmehr, wie in Abb.4.1 gezeigt, die geschätzte
Exafferenz x'1 mittels des Summierers links unten wieder mit dem Kommando z
zusammen. Dadurch soll ein übergeordneter Regelkreis angedeutet werden, mit
dessen Hilfe das Fremdsignal x1 automatisch auf einen durch z vorgegebenen Wert
gebracht werden soll. Allerdings ist so auch festgelegt, daß die Regelung sich auf
denselben Effektor (Regelstrecke) bezieht, durch den das Fremdsignal x 1 mit dem
Eigensignal r 1 konfundiert wird, nämlich auf den Effektor F1. Dies ist jedoch nicht
einsehbar, weil nach der Bereinigung des Sensorsignals ein anderes Teilsystem mit
einem anderen Effektor zugrunde zu legen ist, um das Fremdsignal x1 auf den neuen
durch z gegebenen Wert einzustellen. Am Statolithenapparat etwa geschieht ersteres
durch Kopfbewegungen und letzteres durch Rumpfbewegungen. Des weiteren ergibt
sich in der Anordnung der Abb.4.1 eine positive Rückkopplungsschleife, welche die
Efferenz e1 bis zur maximal möglichen Stärke anwachsen lassen würde. Diese
Unstimmigkeiten machen daher das ursprüngliche Schema der beiden Autoren nur
aus dem Text, nicht jedoch aus der Zeichnung, verständlich.
4.1.3.2 Modifiziertes Reafferenzprinzip
Zieht man die in Abb.4.1 verflochtenen beiden Teilsysteme auseinander, wie dies in
Abb.4.2a und Abb.4.2b geschehen ist, und führt zwei Effektorsysteme ein, nämlich F1
und F, so tritt die Struktur des Gesamtsystems klarer hervor. Allerdings ist die
ursprüngliche Idee der beiden Autoren, eine gestufte Fremdeigendifferenzierung
einzuführen und gleichzeitig auf der höheren Stufe das eigenbewegungsbereinigte
Fremdsignal einer Regelung zu unterwerfen, wiederum nicht ohne weiteres in einer
einzigen Zeichnung darzustellen, wenn nicht dieselben Probleme wie in Abb.4.1
auftreten sollen. Aus diesem Grunde werden diese Aspekte in zwei getrennten
Zeichnungen behandelt, in Abb.4.2a der Aspekt der Fremdeigendifferenzierung, in
Abb.4.2b derjenige der Regelung der intendierten externen Größe.
9
Abbildung 4.2 : Auseinandergezogenes und vervollständigtes Reafferenzmodell
(a und b)
Zunächst zur Abb.4.2a. Der gestrichelt umrandete Teil kennzeichnet das
Reafferenzsystem mit dem Effektor F1. Dieses System filtert das umweltbezogene
Fremdsignal x1 aus dem von der Eigenbewegung r1 verfälschten Signal a wieder
heraus und stellt den bereinigten Wert der nächsten Verarbeitungsstufe als x'1 zur
Verfügung. Auf dieser Stufe nun gilt es ein anderes Fremdsignal zu erfassen,
nämlich die Größe x , welche jetzt durch die Efferenz e über die vom Effektor F
erzeugte Wirkung r konfundiert ist. Zur Bereinigung dieser Konfundierung ist ein
zweiter Korrelationsspeicher S erforderlich, welche aus der Efferenz e die auf dieser
Stufe in Anschlag zu bringende Reafferenz r schätzt. Zieht man den Schätzwert r'
von x' 1 ab, steht mit der Differenz x1-r' dann die interessierende umweltbezogene
Größe x zur Verfügung.
In Abb.4.2b wird das Fremdsignal x der zweiten Stufe zwar wiederum als
umweltbezogene Größe interpretiert, aber nicht mehr als eine, die es zu messen gilt,
sondern als Störgröße, welche die Einstellung jetzt des Eigensignals r auf einen
durch die Zielgröße z vorgegebenen Wert erschwert. D.h., in dieser Sichtweise ist es
im Gegensatz zur Abb.4.2a jetzt das Eigensignal, welches durch das Fremdsignal
konfundiert wird. Als Mittel, das Eigensignal gegen die Fremdeinwirkungen zu
'verteidigen', wird nun ein Regelkreis angesetzt, in den das Reafferenzsystem der
Stufe 1 eingebettet ist. Der Sensor in diesem System bekommt also ein Signal x1
angeboten, welches sich additiv aus der Störung x und dem Eigensignal r der Stufe
2 zusammensetzt und dem zusätzlich noch das Eigensignal r 1 der Stufe 1 überlagert
ist. Nach Subtraktion der geschätzten Reafferenz r'1 von der Afferenz a steht mit x' 1
ein Istwert zur Verfügung, welcher - nunmehr eigenbewegungsbereinigt - auf den
Sollwert z einzustellen ist. Hierzu wird die Differenz dx=-x'=z-x'1 als durch die
Störgröße x induzierte Regelabweichung dx (=Fehler) interpretiert, welcher, ggf. um
einen Faktor p verstärkt, als Efferenz e den Effektor F antreibt. Der Effektor F bleibt
dann automatisch solange aktiv, wie der Fehler dx=-x' verschieden von Null ist.
Beim Auge scheinen auf der Stufe 1 in der Tat die durch Eigenbewegungen des
Augapfels hervorgerufenen Änderungen der sensorischen Daten durch die Kopie der
Efferenz an die Augenmuskeln kompensiert zu werden. Die in Abb.4.2a bzw.
Abb.4.2b gestrichelt umrandete Anordnung trifft am besten auf die
Blickfolgebewegung zu, eine relative langsame und stetige Augenwegung, welche
durch einen sich mit der Geschwindigkeit v auf der Netzhaut bewegenden Reiz
ausgelöst wird und dazu dient, diesen Reiz durch eine Drehung des Augapfels mit
derselben Geschwindigkeit auf der fovea centralis zu halten. Entsprechend ist die
langsame Blickfolgebewegung auch ein häufig gewähltes Beispiel zur Erläuterung
des Reafferenzprinzip: Bezeichnet man die Geschwindigkeit, mit der sich das Bild
10
eines äußeren Gegenstandes relativ zur Netzhaut bewegt, also das Fremdsignal, als
vx, und die Geschwindigkeit, mit der sich die Netzhaut relativ zum Kopf bewegt, also
das Eigensignal, als vr, so mischen sich auf der Netzhaut beide Signalarten - hier
subtraktiv
zum
Geschwindigkeitssignal
vs=vx-vr,
der
resultierenden
Bildgeschwindigkeit des Gegenstandes, bezogen auf ein mit der Netzhaut
mitbewegtes Koordinatensystem. Man nimmt dann an, daß sich in der Netzhaut
(oder an anderen Stellen der Sehbahn, welche über retinotope Abbildungen
aufeinander bezogen sind) Geschwindigkeitsdetektoren (Reichardt 1961, 1987)
befinden, welche ein zu vs proportionales afferentes Signal a liefern. Weiter wird
angenommen, daß die Efferenz, und damit auch die davon abgeleitete Efferenzkopie
er, auf prämotorischer Ebene proportional zur erzeugten Winkelgeschwindigkeit des
Auges ist (Eckmiller 1985). Um die Reafferenz v'r zu schätzen, braucht das
Vorwärtsmodell also lediglich die Efferenzkopie mit einer Konstanten zu
multiplizieren. Hinzufügen - hier durch Addition - dieser Reafferenz zum
Detektorsignal a ergibt dann die fremdbestimmte Geschwindigkeit vx . Bis hierhin hat
das Reafferenzprinzip also den Charakter eines Wahrnehmungsprinzips. Bezieht
sich v x dann weiter z.B. auf die Geschwindigkeit der Spitze eines in der Hand
gehaltenen Stiftes, so kann diese - bereinigt von den Effekten der Augenbewegung durch Regelung auf ein von anderen Zentren vorgegebenes ZielgeschwindigkeitsMuster gebracht werden. Das betrifft dann den motorischen Aspekt der
Handbewegung.
An Hand der Abb.4.2a oder Abb.4.2b kann man sich allerdings auch überlegen, daß
die Schätzung derjenigen Größe, welche die Eigenbewegung des Sensors
beschreibt, nicht nur über die Efferenzkopie e - und damit über die Reafferenz r' 1 geschehen kann, sondern alternativ auch über eine direkte propriozeptive Messung.
Wie man weiß, ist dies bei der Bestimmung des Winkels zwischen Kopf und Rumpf
der Fall. Hier werden die Längenmessungen durch die Muskelspindeln in den
Halsmuskeln herangezogen, die den Kopf halten. Falls also geeignete
Propriozeptoren in Muskeln, Sehnen und Gelenken zur Verfügung stehen, können
auch deren Signale zur Fremd-Eigen-Differenzierung auf Sensorebene (Stufe 1)
benutzt werden.
Auf der Stufe 2 ist, bezogen auf Abb.4.2b, das Fremdsignal bzw. die Störung x
jedoch nicht objektiv zu erfassen. Zwar könnte man als Schätzwert für x den Fehler x'
(mit umgekehrtem Vorzeichen) als Schätzung der Exafferenz heranziehen, infolge
des Regelungsmechanismus wird dieser aber ganz automatisch stets so klein als
möglich gehalten und kann daher keine valide Auskunft über die jeweils vorliegende
Höhe der Störung geben.
11
Der Fall liegt jedoch anders, wenn das sensorische Ziel z nicht durch Regelung
(negative feedback), sondern durch eine Steuerung (feed forward), also gleichsam
automatisch ohne einen rückgeführten Fehlerwert, eingestellt werden könnte. Dieser
Fall ist im Reafferenzprinzip nicht enthalten und soll im nächsten Kapitel behandelt
werden, in dem dann die Begriffe der Werkzeugtransformation und - vor allem - ihrer
Inversen die entscheidende Rolle spielen. Hierbei wird die Bereinigung der
sensorischen Daten von Eigenbewegungseffekten vorausgesetzt, geschehe dies nun
über die Propriozeption oder nach dem Reafferenzprinzip, und nicht mehr explizit
erwähnt
4.1.4 Die Werkzeugtransformation als Bindeglied zwischen Motorik und Sensorik
Der Begriff der Werkzeugtransformation gestattet es, die gegenseitigen
Abhängigkeiten zwischen Wahrnehmung und Motorik endgültig zu ordnen. Die
Werkzeugtransformation beschreibt den Effekt der efferenten Aktivität auf die
aktuelle Afferenz, bindet also die Veränderung der materiellen Umwelt, soweit sie
sensorisch erfaßt wird, kausal an die Eigenaktivität (vgl. auch Abb. 1.6). Es ist dabei
unerheblich, ob die betroffenen Gliedmaßen noch ein Arbeitswerkzeug, z.B. einen
Stock oder ein Automobil, bedienen oder nicht, da es nur auf den effektiven Teil des
Werkzeugs ankommt. Beim Zeigen z.B. kann dieser die Stockspitze, aber auch die
Fingerspitze sein, beim Kraftfahrzeug die Position des Autos bezogen auf die Straße,
oder die Position der Hand bezogen auf das Lenkrad. Somit ist "vom Standpunkt des
Gehirns" auch der Gebrauch der eigenen unbewaffneten Gliedmaßen
Werkzeuggebrauch. Ein linearer oder gar proportionaler Zusammenhang zwischen
Ursache und Wirkung wird hierbei aber nicht mehr vorausgesetzt.
Abbildung 4.3 : Umgeschriebenes Reafferenzmodell mit inversem Modell
Der Werkzeugeffekt ist in der Regel auf die materielle Umwelt bezogen. Also wird
man auch sowohl die sensorisch bzw. perzeptiv erfaßten Werkzeugeffekte als auch
die vorausgegangenen sensorischen bzw. perzeptiven Ziele in umweltzentrierten,
also exterozeptiven, Koordinaten formulieren. Hierbei wird im weiteren stets davon
ausgegangen, daß, soweit die sensorische Ebene (Stufe 1) betroffen ist, Effekte von
Eigenbewegungen bereits kompensiert sind. Das Problem, welches der motorische
Apparat bei der Realisierung solcher exterozeptiv definierter Ziele zu lösen hat, ist
dann, Gliedmaßenbewegungen so zu planen, daß nach Durchführung dieser
Bewegungen der aktuelle Wahrnehmungszustand mit dem Ziel übereinstimmt. Dazu
ist es unerläßlich, nicht nur die Regeln, nach denen die Umwelt funktioniert, zu
kennen,
sondern
auch,
die
physikalischen
Eigenschaften
und
den
Bewegungszustand der dabei zu bewegenden Körperglieder zu berücksichtigen.
Letztere aber werden mit Hilfe von körperzentrierten (propriozeptiven) Koordinaten
12
erfaßt. Man kann daher den motorischen Apparat auch als "Interface" ansehen,
welches zwischen exterozeptiv orientierter Sensorik und propriozeptiv orientierter
Aktuatorik vermittelt. Die Funktionsweise einer solchen sensu-motorischen Einheit,
welche zur Kontrolle und Planung der Bewegungen des eigenen Körpers mit Blick
auf exterozeptive Ziele erforderlich ist, kann formal als Invertierung der
Werkzeugtransformation dargestellt werden. Hierauf liegt in den folgenden
Ausführungen insbesondere der Akzent.
Die Abb.4.3 soll diese Sichtweise unter Rückgriff auf die Abb.4.2b genauer,
aber zunächst noch unter Annahme vereinfachter Zusammenhänge, verdeutlichen.
Zweckmäßigerweise stelle man sich zur Illustration eine schnell durchgeführte
(ballistische) Drehung des Oberarms bei versteiftem Ellbogengelenk vor, wie sie z.B.
in Abb.4.5a angedeutet ist.
4.1.4.1 Definition der Werkzeugtransformation
Beginnen wir zur Erklärung der Begriffe im oberen Teil der Abb.4.3. Die
hinausgehende Efferenz e bewirkt über die 'motorische Transformation' in der Regel
Lage- und Stellungsveränderungen der betroffenen Gliedmaßen, welche im
einfachsten
Falle
vermittels
der
'sensorischen
Tranformation'
direkt
wahrnehmungsmäßig erfaßt und dem agierenden Organismus als Afferenz a zur
Kenntnis gebracht werden, wobei bereits eigenbewegungsbereinigte sensorische
Daten vorausgesetzt werden. Die bewegten Gliedmaßen können aber auch auf ein
mechanisches Werkzeug einwirken, wobei erst die dadurch hervorgerufene
Umweltveränderung - also der Werkzeugeffekt - wahrnehmungsmäßig von Belang
ist. Beispiele für einen solchen Werkzeuggebrauch sind Hantierungen mit einem den
Arm verlängernden Stock, oder das Lenken eines Fahrzeugs durch Drehen des
Steuerrades. Vom Standpunkt des Gehirns ist es jedoch, wie schon gesagt,
prinzipiell unerheblich, ob die in Bewegung gesetzten Gliedmaßen auch noch
physikalische Werkzeuge in engeren Sinne betätigen oder nicht: Auch der Gebrauch
der eigenen Gliedmaßen ist Werkzeuggebrauch im weiteren Sinne; denn die
hinausgehenden Efferenzen bestimmen letztendlich den darauf zurückgehenden
afferenten Zufluß.
Abbildung 4.3: Prozeß-Schema der Wechselwirkung .. (neues Re-Afferenz-Modell)
In Abb.4.3 sind der physikalische Werkzeugeffekt als Eigensignal r, das davon
unabhängige Fremdsignal mit x und die organismische Einwirkung mit k bzw. e
bezeichnet. Legt man den "unbewaffneten" Arm der Abb. 4.5 zu Grunde, so kann als
Werkzeugeffekt r z.B. die jeweilige Winkelposition ϕ des Arms oder eine ihrer
13
zeitlichen Ableitungen genommen werden, während die Muskelkraft bzw. das
muskuläre Drehmoment als einwirkende Variable k infrage kommt. Das am
Sinnesorgan eintreffende physikalische Signal ist in Abb.4.3 mit s bezeichnet. Aus
physikalischer Sicht ist s eine Kombination des Eigensignals r, welches auf die
Efferenz e zurückgeht, und des Fremdsignals x, welches auf eine davon
unabhängige Einwirkung x der Umgebung zurückgeht (z.B. ein Windstoß oder
Schlag auf den Arm). In Abb.4.3 wird angenommen, daß sich s additiv aus x und r
ergibt: s=x+r. Das Fremdsignal x wird also entsprechend Abb.4.2b als Störung
interpretiert.
Das Signal-Gemisch s ist es, welches mittels der 'sensorischen Transformation'
FS
in die Gesamtafferenz a, die sich während (bzw. nach) der
Bewegungsdurchführung einstellt, transformiert wird. Entsprechend kann man sich
die Gesamtafferenz a aus der Re-Afferenz r'=FS(r) , welche den Werkzeugeffekt
neuronal beschreibt, und der Ex-Afferenz x'=FS(x), welche der Störung entspricht,
zusammengesetzt denken. Nimmt man Linearität an, gilt a=r'+x'. Wegen der hier als
linear
angesetzten
Transformationen
erhält
man
also
r'+x'=a=F S(s)=FS(r+x)=FS(r)+FS(x).
Rein physikalisch wird ein Werkzeug beschrieben durch seine "physikalische
Werkzeugtrans-formation" F P, welche den Zusammenhang zwischen der Kraft k, die
auf das Werkzeug über die Muskelkontraktionen einwirkt, und den dadurch
veränderten Zustand r der physikalischen Umwelt beschreibt, was in Abb.4.3 durch
r=FP(k) angedeutet wird. Die physikalische Werkzeugtransformation FP verknüpft
also ausschließlich physikalisch definierte Variable. Entsprechend bezeichne FM die
"motorische Transformation", welche von den Efferenzen e auf die dadurch
erzeugten Kräfte k führt: k=FM(e). Die Werkzeugtransformation, hier mit F
bezeichnet, wird dann als funktionaler Zusammenhang zwischen Efferenz e
(unabhängige Variable) und Reafferenz r' (abhängige Variable) definiert: r'=F(e). Mit
diesen Definitionen ergibt sich F als Hintereinanderausführung von FM,, FP und FS,
in Formelzeichen: F=FS *FP *FM,, oder r'=F(e)=F S{FP[FM(e)]}.
4.1.4.2 Werkzeugtransformation und Reafferenz-Prinzip
Das Problem ist, daß in der Gesamtafferenz a zwischen der Re-Afferenz r' und der
Ex-Afferenz x' ohne zusätzliche Informationen nicht unterschieden werden kann. Im
Reafferenzmodell nach Abb.4.2a besteht die Lösung darin, daß auch auf der
zweiten Stufe, die nun in Betracht steht, ein Vorwärtsmodell S der
Werkzeugtransformation angewendet wird, welches aus der Efferenz e die
zugehörige Reafferenz r' vorhersagt. Im unteren Teil der Abb.4.3 wird eine weitere
Möglichkeit gezeigt, wie der Organismus an die Exafferenz auch ohne
14
Inanspruchnahme eines Vorwärtsmodells gelangen kann, nämlich durch direkten
Vergleich
der
Ziel-Afferenz
z
mit
der
hereinkommenden
(eigenbewegungsbereinigten) Afferenz a. Wie im Zusammenhang mit Abb.4.2b
bereits angedeutet wurde, eröffnet sich diese Möglichkeit jedoch nur, wenn das
Fremdsignal r bzw. die Reafferenz r' nicht durch Regelung an die Zielgröße z
angeglichen wird, denn ansonsten wäre die Größe x' durch die vom Regler
herbeigeführten Aktionen verfälscht. Als Alternative Zur Fehlerverminderung durch
Regelung wird in Abb.4.3 eine Steuerung über ein inverses Modell der
Werkzeugtransformation vorgeschlagen. Was hat es damit auf sich?
4.1.4.3 Definition des Modells der inversen Werkzeugtransformation
Bei der Werkzeugtransformation F wird die Efferenz e als Ursache angesehen,
welche die sensorische Wirkung r' nach sich zieht. Bei der Verwirklichung eines
gewünschten sensorischen Zustands, so wie er durch die Zielafferenz z vorgegeben
wird, ist jedoch die "Umkehrung" dieser Kausalrichtung angesagt; denn jetzt gilt es,
ausgehend von einem sensorischen Ziel, diejenigen Efferenzen zu finden, welche
dieses Ziel konkret herbeiführen. Von der Wirkung ist also auf die Ursache, welche
diese Wirkung hervorbringt, zu schließen. Hierzu ist die Umkehrfunktion zur
Werkzeugtransformation erforderlich, welche formal durch das Symbol F-1
gekennzeichnet wird. Bezeichnet man also mit z eine gewünschte Reafferenz, so
wird die Efferenz e , welche bei ihrer Anwendung die Reafferenz z herbeiführt, durch
e =F-1(z) festgelegt, wobei die Frage nach der Existenz einer inversen
Werkzeugtransformation zunächst ausgeklammert wird.
Um selbstgesetzte sensorisch-perzeptive Ziele durch eigene motorische
Aktivität zu verwirklichen, kann das Individuum also auch von einem neuronalen
Modell S-1der inversen Werkzeugtransformation F-1 ausgehen und dieses jetzt zur
Steuerung benutzten. Gilt, was angestrebt wird, S-1=F-1, so kann mittels S-1 zu
einem afferenten Ziel z eine Efferenz eS gefunden werden, welche emittiert werden
muß, um eine Reafferenz r' zu erhalten, die mit z übereinstimmt. Es liegt damit auch
nahe, in diesem Falle das sensorische Ziel z als 'Schätzung der Reafferenz' zu
betrachten, welche - analog zum ursprünglichen Reafferenzprinzip - von der
Gesamtafferenz a subtrahiert - unmittelbar auf eine Schätzung x' der Exafferenz x
führt. In diesem Falle kann auf die Implementierung eines Vorwärtsmodells der
Werkzeugtransformation verzichtet werden, eine Möglichkeit, auf die auch Varju
(1990) hinweist.
Erzeugt bei einer solchen Aktion die über das inverse Modells S-1 ermittelte
Efferenz eS =S-1(z) eine Afferenz, die nicht mit der gewünschten Afferenz z
übereinstimmt , so entsteht eine von Null verschiedene Exafferenz x', also ein Fehler
15
dx=-x'. Diese Diskrepanz kann, folgt man dem Reafferenzprinzip in seiner
ursprünglichen Form, auf ein Fremdsignal bzw. eine Störung x zurückgeführt
werden. Nach dem Prinzip der inversen Modellierung, so wie es hier ausgearbeitet
wurde, kann darüberhinaus auch ein Fehler im Modell S-1 vorliegen. Welche von
diesen zwei Möglichkeiten zutrifft, kann auf dieser Verarbeitungs-Ebene nicht mehr
entschieden werden, so daß eine hierarchisch höher angesiedelte Ebene
eingeschaltet werden muß. Von dieser höheren Ebene (nicht in Abb.4.3
eingezeichnet) sollte dann, je nach der angenommenen Ursache, entweder eine
Reaktion auf einen korrekt ermittelten Fehler, oder eine Nachbesserung des Modells
S-1 vorgenommen werden.
Voraussetzung für die Fehlererkennung ist jedoch, daß eine Regelung unter
Verwendung eben dieses Fehlers als Regelabweichung ausgesetzt wird, bis der
Steuerungsvorgang über das inverse Modell zum Ende gekommen ist. Aus diesem
Grunde ist der über den Regler P verlaufende Rückkopplungszweig in Abb.4.3
unterbrochen worden. Den zeitlichen Ablauf einer motorischen Aktion muß man sich
dann grundsätzlich wie folgt vorstellen: Die gegenwärtige Afferenz a vor stellt die
Ausgangslage vor Durchführung der Aktion dar. Nach Anlegen des neuen
sensorischen Ziels z besteht dann zwischen Ziel und Realität die Diskrepanz z-a vor.
Diese wird jedoch noch nicht als Fehler interpretiert. Denn gleichzeitig wird z in das
inverse Modell S -1 gegeben und so diejenige Efferenz eS ermittelt, welche das
sensorische Ziel im Rahmen einer Steuerung realisiert. Nach Abschluß der Aktion
hat sich eine neue sensorische Konstellation a nach ergeben, deren Unterschied zu z
jetzt als Fehler gesehen wird. Nunmehr kann einerseits der verbliebene Fehler zur
Verbesserung des inversen Modells benutzt werden und andererseits - bei
geschlossenem Schalter - eine an diesem Fehler ausgerichtete Korrekturbewegung
vermittels der Efferenz eR als Stellgröße durchgeführt werden, was einer Regelung
über den als proportional angenommenen Regler P gleichkommt. Sollte - das sei
jedoch angemerkt - die Werkzeugtransformation F zweifach integrierend sein, was
bei Gliedmaßenbewegungen der Fall ist, so darf der Regler im Interesse der Stabilität
nur kleine Verstärkungsfaktoren anwenden, Verstärkungsfaktoren, die nicht
ausreichen, einen bestehenden Fehler dx durch Regelung zum Verschwinden zu
bringen. Davon abgesehen können mit alleiniger Anwendung von Regelung auch die
empirisch gefundenen Geschwindigkeitsprofile nicht erzeugt werden (vgl. Kalveram
1991).
4.1.4.4 Erwerb des inversen Modells durch Auto-Imitation
Um ein Modell der inversen Werkzeugtransformation einzurichten, muß der
Organismus die sensorischen Konsequenzen seiner eigenen Motorik kennenlernen.
In Abb.4.4a wird gezeigt, wie die mit S-1 bezeichnete Funktionseinheit in der
Lernphase unter Anwendung eines speziellen Lernalgorithmus (Kalveram 1981), der
16
als "Selbst-" oder "Auto-Imitation" (Kalveram 1990) bezeichnet werden kann, eine
entsprechende interne Repräsentation erwirbt. In der gezeichneten Schalterstellung
"2"
muß
das
Individuum
bei
zunächst
fehlenden
fremderzeugten
Umweltveränderungen (dh. x=0) motorisch aktiv sein, also irgendein efferentes
Muster erzeugen, was durch das Agieren eines sog. "Blinden Lehrers" (blind teacher,
vgl. Kalveram 1993b) angedeutet wird. Blind heißt der Lehrer deswegen, weil er mit
diesen Aktionen keine eigenen Ziele zu verfolgen braucht und auch nicht das
Ergebnis kennen muß. Der blinde Lehrer sendet im Prinzip ungerichtete Efferenzen
eB aus, die einerseits Bewegungen induzieren und andererseits über den
gestrichelten Pfeil in den Lerneingang (teaching input) der mit S-1 bezeichneten
Funktionseinheit gelangen. Über den Normaleingang der Funktionseinheit S-1 wird
die Gesamtafferenz a eingegeben, welche zeitgleich infolge der durch e B induzierten
Bewegung entsteht. Wegen x=0 ist die Gesamtafferenz jetzt nur durch die
Reafferenz r' bestimmt. Somit sind die auf die Umwelt gerichtete motorische Efferenz
und die dadurch veränderte Gesamtafferenz im Prinzip umkehrbar eindeutig
aufeinander beziehbar und können miteinander verknüpft werden, so daß sich das
Individuum ein sensorisch-perzeptives Abbild der Wirkung seiner eigenen Motorik
verschaffen kann. Eine treffende Bezeichnung dieser Zuordnung, welche die Motorik
auf die Sensorik zurückführt, ist daher "sensumotorisches Selbst" (Kalveram & Merz
1976, Kalveram 1981). Der Lernvorgang, der auf die beschriebene Weise zum
Erwerb des sensumotorischen Selbstes führt, wird deswegen als "Auto-Imitation"
(Selbstnachahmung) bezeichnet, weil das Individuum hierbei die Funktionsweise
seiner eigenen Gliedmaßen neuronal nachahmt.
Vermutlich dienen die bei
Säuglingen z.B. zu beobachtenden Strampelbewegungen diesem auto-imitativen
Lernen. Im Kontrast dazu steht ein als "Allo-Imitation" (Fremdimitation) bezeichneter
Lernalgorithmus, der beim taktischen Apparat behandelt wird und dazu dient, bei
anderen
Artgenossen
beobachtete
Verhaltensweisen
zu
übernehmen.
Systemtheoretisch handelt es sich bei beiden Lernarten um die Identifikation des
inversen Modells eines zur Kontrolle anstehenden Systems.
Abbildung 4.4.a : Auto-imitatives Lernen des inversen Modells
Der vom Funktionselement S-1 wegweisende Pfeil steht für die Output-Variable,
die nach Abschluß des Lernens an dieser Stelle verfügbar ist. Während des Lernens
hat die hier abgegriffene Variable keine Steuerfunktion, daher besteht in der
Lernphase keine Verbindung des Ausgangs zum System. In der Kannphase sollte
diese Variable dann Werte für diejenigen Efferenzen liefern, welche ein ggf.
eingegebenes afferentes Ziel z verwirklichen. Im günstigsten Falle ist, wie schon
gesagt,
S-1=F-1. Von großer Bedeutung für die Qualität dieses inversen Modells ist, daß beim
Lernvorgang die Efferenzen eB und die daraufhin eintreffenden Gesamtafferenzen a
17
in eindeutiger Weise aufeinander bezogen sind. Nicht auf Eigensignale
zurückgehende afferente Zuflüsse sind also in der Lernphase möglichst vollständig
zu eliminieren (Kalveram 1981). In Abb.4.4a wird diese Abschirmung gegenüber
äußeren Einflüssen durch die Unterbrechung des Pfeils, der das Fremdsignal x
symbolisiert, angedeutet.
Abbildung 4.4.b: Auto-Imitation, alternativer Blinder Lehrer
Die Abb.4.4b zeigt eine alternative Einbindung des Blinden Lehrers in den autoimitativen Lernprozeß, ist aber ansonsten identisch mit der Abb.4.4a. Der Blinde
Lehrer wird hier als Generator für Zielafferenzen eingesetzt, der beliebige afferente
Vorgaben z erzeugt, von denen in der Subtraktionseinheit die jeweils aktuellen
Afferenzen a abgezogen werden. Die erhaltenen Differenzen dx werden im Regler
P in Efferenzen eR umgesetzt, die, da sie unmittelbar auf den Blinden Lehrer
zurückgehen, auch mit dem Symbol e B belegt werden können; denn mit Bezug auf
den Lernvorgang sind die Darstellungsweisen in den Abb.4.4a und 4.4b funktional
gleichwertig.
Abbildung 4.4.c: Auto-Imitation mit Erfolgsrückmeldung
Eine weitere Variante auto-imitativen Lernens zeigt die Abb.4.4.c. Diese
Zeichnung ist bis auf die Stellung des Schalters links vom Modul S -1 und den
gepunkteten Pfeil vom Vergleicher (Variable dx) zum Modul S-1 mit Abb.4.4.a
identisch. Der Schalter leitet nunmehr permanent das afferente Ziel z auf den
Normaleingang des Moduls S-1. Der Pfeil so zu lesen, daß auschließlich dann, wenn
das vom Blinden Lehrer erzeugte efferente Muster eB zu einer Übereinstimmung
zwischen dem Ziel z und der afferenten Rückmeldung a geführt hat, also wenn dx=0
ist, die Lernfunktion des Moduls S-1 aktiviert wird und die momentane Efferenz e am
Lerneingang an das afferente Ziel z gebunden wird. Da dx=0 bedeutet, daß in
diesem Moment die durch die efferente Maßnahme e tatsächlich erzeugte Afferenz a
am Lerneingang verfügbar ist, und da das Lernen auf die Momente mit dx=0
beschränkt wird, ist auch Abb.4.4.c funktional äquivalent mit Abb.4.4.a. bzw.
Abb.4.4.b. Die Abb.4.4.c hat den Vorteil, daß durch Verwendung des gepunkteten
Pfeils erfolgsgesteuertes Lernen bzw. Verstärkerwirkung im Rahmen des autoimitativen Schemas präzise definiert werden kann.
Welcher der Anordnungen in den Abb.4.4.a,b,c der Vorzug gegeben wird, kann
daher nach didaktischen Gesichtspunkten entschieden werden. Beim Strampeln lernt
der Säugling, so kann man vermuten, die inverse Dynamik seiner Arme und Beine.
Hier wird man eher die Darstellung der Abb.4.4.a in Anschlag bringen. Beim
18
Erlernens des motorischen Vollzuges des artspezifischen Gesanges nach vorheriger
"Gesangsprägung" der Jungvögel ist eher die Darstellungsweise der Abb.4.4b oder
Abb.4.4.c angemessen; denn man kann davon ausgehen, daß hier vorab
auditorische Muster eingeprägt werden, zu denen bei Eintritt der Geschlechtsreife
efferente Muster so gesucht werden, daß die erzeugten auditorischen Signale mit
dem eingeprägten Muster übereinstimmen. Im weiteren wird, wenn dem keine
Gründe entgegen stehen, der Darstellung der Abb.4.4.a mit dem Blinden Lehrer in
der Funktion des Efferenzgenerators der Vorzug gegeben.
Auto-imitatives Lernen ist, das sei nochmals wiederholt, dadurch
gekennzeichnet, daß dem lernenden Modul sowohl die momentane efferente Aktivität
als auch diejenige Afferenz "gezeigt" wird, die auf diese efferente Aktivität
zurückgeht. Doch welche von den obigen drei Darstellungsformen auch immer
gewählt wird, stets gilt, daß während des auto-imitativen Lernens das inverse Modell
S-1 nicht zur motorischen Steuerung einsetzbar ist. Ob also der Lernvorgang
erfolgreich war, kann nur nach Umschaltung in die alternative, für die Kannphase
gültige, Schalterstellung getestet werden, in dem ein perzeptives Ziel vorgegeben
und der Fehler dx beurteilt wird. Lernen und Anwenden des Gelernten geschehen in
unterschiedlichen Systemstrukturen! Da infolgedessen während des Lernens etwa
gem. Abb.4.4.c in der Regel ein primitiveres Modell für die Bewegungskontrolle
angewendet wird, welches im Regler P realisiert ist, kann das Umschalten vom
Lernen zum Testen und wieder umgekehrt als das Umschalten zwischen zwei
Modellen erscheinen, so wie es Neilson, Neilson, & O'Dwyer (1998) beschrieben
haben.
Nur scheinbar handelt es sich bei dem hier dargestellten Lernprozeß um
assoziatives Lernen, bei dem jedem konkreten afferenten Eingabewert punktuell ein
konkreter efferenter Ausgabewert zugeordnet wird. Wäre dies der Fall, so könnte das
Modul S-1 nicht interpolieren oder gar extrapolieren, wenn - was später im Alltag der
Normalfall sein dürfte - Werte für sensorische Ziele eingegeben werden, die in der
Lernphase nicht vorgekommen sind. Tatsächlich muß das Modul S-1 die
Gesetzmäßigkeiten repräsentieren, welche Ein- und Ausgangsvariable verknüpfen,
damit es auch zu beliebigen Realisationen der Eingangsvariablen den zugehörigen
Wert der Ausgangsvariablen berechnen kann. Der Lernvorgang muß demnach ein
induktiver sein, bei dem die Gesetzmäßigkeit aus den beispielhaft vorgegebenen
Input/Output-Wertepaaren erschlossen wird. Wie später noch gezeigt werden wird,
sind spezielle Typen von neuronalen Netzwerken, z.B. das Potenzierungsnetzwerk
der Abb.4.2.1, für diese Art von Lernen geeignet.
Abschließend sei darauf hingewiesen, daß das Reafferenzschema der Abb.4.3
sowohl taxische Komponenten, nämlich die Steuerung über das inverse Modell, als
auch appetente Komponenten, die erfolgsorientiert das emitierte Verhalten
19
beeinflussen, nämlich die Ausregelung des Fehlers, enthält. Allerdings findet man
nur globale, aber keine näheren Angaben über die Art und Weise der EfferenzErzeugung. Wie bei Mehrdeutigkeit der Beziehung zwischen Efferenz und ReAfferenz - und das dürfte dann doch die Regel sein - ein inverses Modell der
Werkzeugtransformation ermittelt werden kann, wurde gleichfalls ausgeklammert.
Zur Behebung der Mehrdeutigkeit müssen weitere Signale hinzugenommen werden,
was in Abb.4.3 durch den gestrichtelten Pfeil mit der Bezeichnung
'Zustandsrückführung' angedeutet wird.
Eine Frage ist auch, an welcher Stelle zweckmäßigerweise das Fremdsignal x in den
Informationsfluß eingeschleust wird. In Abb.4.3 bzw. Abb.4.4a oder 4.4b ist dies im
sensorischen Ast der Werkzeugtransformation geschehen, was lineare Interaktionen
zwischen Störung und Eigensignal nahelegt. Mit gleicher Berechtigung kann man
aber
Störvariable
auch
in
den
motorischen
Ast
legen.
Da
die
Werkzeugtransformation in der Regel nichtlinear sein dürfte, sind dann auch die
Auswirkungen der Störungen auf die Sensorik als nichtlinear anzusetzen. Den im
Rahmen der inversen Modellierung angestellten Überlegungen tut dies jedoch
keinen Abbruch.
Die bislang eher allgemeine Darstellung des Reafferenzprinzips und seiner
Erweiterung soll im folgenden Kapitel unter Zugrundelegung von Zielbewegungen mit
einem Arm inhaltlich ausgefüllt werden. Hierbei werden auch weitere aus der
Systemtheorie folgende Bedingungen aufgezeigt, die erfüllt sein müssen, damit - vor
allem - ein inverses Modell einer Werkzeugtransformation ermittelt werden kann, was
sich dann wiederum als Voraussetzung für Durchführung von Regelungsvorgängen
erweist.
4.2 Zielbewegungen mit den Arm
Die Ausführungen in den folgenden Kapiteln sind mathematisch-physikalisch orientiert. Sie dienen dazu, sowohl die physikalische Wirklichkeit unseres Körpers, seiner
Gliedmaßen und der zu manipulierenden Umwelt zu beschreiben, als auch die Leistung des neuronalen Kontrollers, der ja über Gliedmaßenbewegungen die Umwelt
gezielt zu verändern hat, darzustellen. Ohne Kenntnis der physikalischen Wirklichkeit ist es unmöglich, die Arbeitsweise des neuronalen Kontrollers zu begreifen, mit
dem eben diese Wirklichkeit beherrscht wird. Physikalische Wirklichkeit und neuronaler Kontroller bilden eine Einheit, bei der das eine ohne das andere keinen Sinn
macht. Ausgegangen wird von einem zunächst eingelenkigen Arm, dem später zunächst ein zweites und danach ein drittes Gelenk hinzugefügt werden soll. Die Hinzunahme jedes weiteren Gelenks wirft jeweils typische Probleme bei der internen
Modellierung der entsprechenden inversen Werkzeugtransformationen auf. Die ma20
thematischen Gleichungen vermitteln durch ihre steigende Komplexität einen Eindruck davon, welche Höchstleistungen von unserem Nervensystem erbracht werden,
wenn es Gliedmaßenbewegungen ”durchführen” läßt, Leistungen, die dem bewußten
Erleben meist nicht unmittelbar zugänglich sind.
4.2.1 Kontrolle der Zielbewegung eines eingelenkigen Arms
4.2.1.1 Der Arm, physikalisch ein Drehpendel
Der in diesem Kapitel verwendete Arm ist in Abb.4.5a dargestellt. Er ist in einer vertikalen Ebene um das Gelenk 1 (Schultergelenk) drehbar. Der Pfeil bei g zeigt die
Richtung der Schwerkraft an. Die Körperachse ist gestrichelt gezeichnet, sie kann mit
der Schwerkraftrichtung den Winkel ϕ g einschließen, in Abb.4.5a ist jedoch angenommen, daß Schwerkraftrichtung und die Richtung der Körperachse übereinstimmen, dh. ϕ g=0 gilt. ϕ bezeichnet die momentane Winkelposition des Arms mit Bezug
auf Körperachse. Nicht in Abb.4.5 eingezeichnet ist der Zielwinkel ϕ z, den der Arm
bei Bewegungsende mit der Geschwindigkeit 0 erreichen soll.
Abbildung 4.5a,b : Eingelenkiger Arm
ϕ die momentanen Werte für die Winkelgeschwindigkeit
Bezeichnet man mit ϕ& und &&
bzw. die Winkelgeschleunigung, so ist die Physik des Arms durch die folgende Differentialgleichung gegeben:
M ⋅ ϕ&&( t ) + R ⋅ ϕ& ( t) + D ⋅ (ϕ(t) − ϕ 0 )− m ⋅ g ⋅ a ⋅ sin(ϕ( t ) − ϕ g ) = Q(t)
(4.1)
Darin bedeuten:
M
R
D
ϕ0
m
a
Q
g
mechanisches Trägheitsmoment, bezogen auf den Drehpunkt
Reibungsmoment (visköse Dämpfung),
Richtmoment (Federkonstante) des Arms.
Winkel, bei dem mechanisches Gleichgewicht eintritt.
Masse des Arms.
Abstand zwischen Schwerpunkt und Drehpunkt des Arms. Bezeichnet MS das
Trägheitsmoment, bezogen auf den Schwerpunkt als Drehachse, so gilt der
Steinersche Satz: M=MS+m.a2 .
Resultierende der muskulären Drehmomente (einschl. äußerlicher ‘Störkräfte’)
Erdbeschleunigung bzw. Schwerefeldstärke (9,81 m/s2 bzw. N/Kg).
21
ϕ g Winkel zwischen Körperachse und Schwerkraftrichtung.
ϕ, ϕ˙ , ϕ˙˙ und Q sind als Zeitfunktionen zu betrachten, die deswegen in der Form
ϕ(t), ϕ˙ (t), ϕ˙˙(t), Q(t) geschrieben sind, wobei t die Zeit bedeutet. Der Buchstabe t
mitsamt der Klammern kann aber auch weggelassen werden, wenn keine Mißverständnisse zu befürchten sind.
Gl. (4.1) beschreibt das Verhalten eines Drehpendels. Auf der rechten Seite
steht das "von außen" einwirkende Drehmoment Q, welches hier als Summe der auf
den Drehpunkt bezogenen muskulär verursachten Drehmomente angesehen wird.
Der erste Term auf der linken Seite der Gleichung steht für die Trägheitskraft, welche
das Pendel dem beschleunigenden äußeren Drehmoment entgegensetzt. Der zweite
Term stellt das durch (visköse) mechanische Dämpfung verursachte Drehmoment
dar, der dritte das rücktreibende Drehmoment, welches entsteht, wenn das Pendel
aus seiner mechanischen Gleichgewichtslage ausgelenkt wird. Der vierte und letzte
Term auf der linken Seite wird durch die Schwerkraft hervorgerufen. Wie alle Drehmomente, ergibt sich auch dieses Drehmoment als Produkt aus Kraft m.g und
Kraftarm a* = a ⋅ sin(ϕ(t) − ϕ g ) , wobei der Kraftarm als senkrechter Abstand des
Drehpunktes von der durch den Schwerpunkt gehenden Parallelen zur Schwerkraftrichtung definiert ist.
In (4.1) ist das muskuläre Drehmoment Q - also die in Abb.4.3 mit "k" bezeichnete organismische Einwirkung - in Abhängigkeit von den kinematischen Größen
Winkel-Beschleunigung, -Geschwindigkeit und -Position dargestellt, so daß man nach Vertauschung der linken mit der rechten Seite - die physikalische Werkzeugtransformation in invertierter Form bereits vor sich hat. Nach Division durch M und
˙˙(t) erhält man aus (4.1) dann eine die physikalische WerkzeugAuflösung nach ϕ
transformation in Vorwärtsrichtung widerspiegelnde Form
˙˙ (t) =
ϕ
1
{ Q(t) − R ⋅ ϕ˙ (t) − D ⋅ (ϕ (t ) −ϕ0) + m⋅ g⋅ a⋅ sin(ϕ (t) −ϕg ) } .
M
(4.2)
Mit den in Abb.1.5 definierten Funktionselementen läßt sich (4.2) auch als Analogschaltung darstellen, wie in Abb.4.5b gezeigt ist. Solche Schaltungen lassen die
systemische Struktur des in Frage stehenden Prozesses meist klarer als die an sich
äquivalente Differentialgleichung hervortreten. Sowohl an (4.1), (4.2) oder Abb.4.5b
läßt sich aber ablesen, daß in die betreffenden Transformationen auf der Argumentseite nicht nur eine einzige Variable eingeht, wie in Abb.4.3 suggeriert wird, sondern
jeweils mehrere: In die physikalische Werkzeugtransformation (4.2) gehen außer
˙ und die
dem muskulären Drehmoment Q jeweils noch die Winkelgeschwindigkeit ϕ
Winkelposition ϕ ein. Auch in die inverse physikalische Werkzeugtransformation
22
(4.1) gehen diese beiden Variablen zusätzlich zu der als Zielvariable zu interpretie˙˙ noch ein. Winkelgeschwindigkeit ϕ˙ und Winkelporenden Winkelbeschleunigung ϕ
sition ϕ kennzeichnen den Bewegungszustand des physikalischen Armsystems, sie
werden daher auch "Zustandsvariable" oder "Zustandsgrößen" genannt. Ohne
Kenntnis dieser Zustandsgrößen sind daher die Gleichungen (4.1) und (4.2) nicht
anwendbar.
4.2.1.2 Die vorläufige Vereinfachung des Problems
Zunächst seien Reibungsmoment R, Richtmoment D und Schwerkraft m.g zu Null
angenommen - eine Annahme, die später wieder fallengelassen wird. Dann geht
(4.2) über in
&& (t) = Q( t) M
ϕ
(4.3)
Diese Gleichung soll für den betrachteten Fall und unter Annahme, daß Q(t)
auschließlich muskulär bedingt ist, als physikalische Werkzeugtransformation ange&&( t)
nommen werden: Bezogen auf die Abb.4.3 stellt also die kinematische Größe ϕ
das Eigensignal dar, während die einwirkende Kraft durch das muskuläre Drehmoment Q(t) repräsentiert wird. Zur Vereinfachung des Problems wird weiter angenommen, daß die motorische und die sensorische Teiltransoformation beide gleich
der Identität sind. Dann fallen die physikalische und (äußere) Werkzeugtransformation zusammen. Dies bedeutet, daß das erzeugte muskuläre Drehmoment Q mit der
an die Peripherie geschickten Efferenz e betragsmäßig gleichgesetzt wird und daß
˙˙(t) mit der Reafferenz identisch ist.
auch das Eigensignal ϕ
˙˙ z(t) den gewünschten Beschleunigungsverlauf bezeichnet, so
Wenn man mit ϕ
folgt aus (4.3) sofort, daß das Modell der inversen Werkzeugtransformation als Multiplikation dieses gewünschten Verlaufs mit der Trägheit des Arms angesetzt werden
muß:
&& z ( t)
Q( t) = M' ⋅ ϕ
,
(4.4)
Hierin stellt M' stellt einen neuronalen Schätzwert des physikalischen Trägheitsmoments M dar. Ist dieser Schätzwert präzise, stimmen gewünschte und tatsächliche
Beschleunigung überein.
23
4.2.1.3 Der Mustergenerator für den gewünschten Beschleunigungsverlaufs
Die für das Erreichen des Zielwinkels ϕ z erforderliche Bewegung soll von einem
"zentralen Mustergenerator" (CPG) gesteuert werden, der ein "gewünschtes"
&& z ( t) der Dauer T emittiert. Dieses Muster
Beschleunigungs-/Bremsmuster (pattern) ϕ
wird nach Passage durch das inverse Modell des Arms - hier also durch Multiplikation mit der geschätzten Armträgheit M' - gem. (4.4) ein muskuläres Drehmoment so
erzeugen, daß das gewünschte Beschleunigungsmuster auch tatsächlich zu beobachten ist. Der Arm soll nun aus der Ausgangslage ϕ(0) mit der Geschwindigkeit
Null starten und den Zielwinkel wiederum mit der Geschwindigkeit Null erreichen, und
zwar genau bei Beendigung des vom Mustergenerator ausgegebenen
Beschleunigungsmuster. Damit das der Fall ist, muß das Beschleunigungsmuster
hinsichtlich Dauer, Amplitude und Symmetrie entsprechend abgestimmt werden. Die
Geschwindigkeit ϕ˙ (T) zum Zeitpunkt T, also bei Beendigung des Musters, wird
gleich Null, wenn für das erzeugte Beschleunigungsmuster die Beziehung gilt:
T
ϕ& ( T) = ∫ &&
ϕ( t) dt = 0
0
für ϕ& ( 0) = 0 .
(4.5)
Diese Bedingung ist erfüllt, wenn die Fläche zwischen der Zeitachse und dem positiven Ast der Beschleunigungskurve gleich der Fläche zwischen der Zeitachse und
dem negativen Ast der Beschleunigungskurve ist. Da diese Flächen Drehimpulsen
entsprechen, kann (4.5) als "Impuls-Bedingung" bezeichnet werden, die bei unserer
Zielbewegung zunächst einmal zu erfüllen ist. In Abb.4.6 unten sind die Beziehungen
˙˙(t), ϕ˙ (t), ϕ(t) veranschaulicht, wobei man
zwischen den kinematischen Größen ϕ
˙˙(t) aus zwei Kurven ϕ
˙˙ a(t) und ϕ˙˙ b (t) additiv zusammengesetzt
sich die Kurve ϕ
denken kann, welche jeweils auf einen (fiktiven) Agonisten und Antagonisten
zurückgehen.
Abbildung 4.6 Beschleunigungs-, Geschwindigkeits- und Positionsverlauf
Um die Bedingungen für das Treffen des Ziels genauer herauszuarbeiten, wird von
˙˙' z (t') der Dauer T' (0<t'<T'), gespeichert im zentralen Museinem Prototypmuster ϕ
tergenerator (CPG), ausgegangen, der die Impulsbedingung bereits erfüllt. Durch
zeitliche Stauchung oder Streckung (T=cT'; t=ct'; 0<t<T; c=T/T' . ) und/oder Veränderung der Amplitude gehe daraus das gewünschte Beschleunigungsmuster
˙˙ z(t) = q⋅ ϕ˙˙'z (c t' ) , T = cT' ,
ϕ
(4.6)
24
hervor, wobei T die veränderte zeitliche Dauer und q den neuen Amplitudenfaktor
bedeuten. T und q sind Parameter, die in die mustererzeugende neuronale Struktur
(CPG) so einzugeben sind, daß das gewünschte Ziel zum Zeitpunkt t=T erreicht wird.
Wenn nun ϕ(0) die Startposition und ϕ( T) die Winkelposition nach Beendigung der
vom zentralen Mustergenerators vorgegebenen Beschleunigungskurve darstellen, so
gilt für den tatsächlich durchfahrenen Winkel ∆ϕ nach (4.3)
T t
T

∆ϕ = ϕ(T) −ϕ(0) = q ⋅ ∫ 0  ∫ 0 ϕ˙˙' z ( ⋅ tˆ ) dˆt  dt

T'

,
2
= p ⋅q ⋅ T
(4.7)
wobei p eine Konstante darstellt, die sich nur aus den Eigenschaften des Prototyps
errechnet (vgl. Kalveram 1991). Mit
δϕ = ϕ z − ϕ(0)
(4.8)
sei nun die Zieldiskrepanz vor Bewegungsbeginn bezeichnet, welche vom Wahrnehmungsapparat in Zusammenarbeit mit der neuronalen Struktur, welche den Zielwinkel ϕ z vorhält, quantitativ zu ermitteln ist. Unter der Annahme, daß p exakt eingestellt worden ist, und unter freier Wahl einer Bewegungsdauer T, kann dann die
Amplitude q des zu erzeugenden gewünschten Beschleunigungsmusters wie folgt
bestimmt werden:
q = p ⋅ δϕ T
2
.
(4.9)
Eine Bewegung mit dieser Beschleunigungsamplitude q und dieser Dauer T sollte
also die gewünschte Winkelposition ϕ z konkret herbeiführen .
4.2.1.4 Der allgemeine Fall erfordert Zustandsrückführung
Reale zielgerichtete Bewegungen müssen nicht nur das Trägheitsmoment des Arms
überwinden, sondern auch die mechanische Impedanz des Arms, worunter Dämpfungskräfte und elastische Kräfte in den Muskeln und Gelenken sowie die Schwerkraft zusammengefaßt werden. Aus diesem Grunde soll die in (4.3) gemachte anfängliche Einschränkung, daß außer Trägheits- und Muskelkräften keine weiteren
Kräfte auf den Arm einwirkensollen, wieder fallen gelassen und von der kompletten
25
Gleichung (4.1) bzw. (4.2) ausgegangen werden. Aus (4.2) geht dann hervor, daß
man die vereinfachte Form (4.3) beibehalten kann, wenn man dem muskulären
˙˙ z (t) , welches auf den Mustergenerator zurückgeht, eine
Drehmoment QM (t) = M'⋅ ϕ
Komponente Q K(t) so hinzufügt, daß die durch Dämpfung, Federrückstellungskräfte
und Schwere hervorgerufenen Drehmomente eben gerade kompensiert werden. Das
insgesamt im Zusammenhang mit der inversen Modellierung aufzubringende
muskuläre Drehmoment ist dann
Q(t) = QM (t) + QK (t)
= M' ⋅ϕ˙˙z (t) + QK (t) ,
wobei
QK (t) = R'⋅ ϕ˙ (t) + D' ⋅(ϕ (t) − ϕ 0 ) −C '⋅sin(ϕ (t) −ϕ g )
(4.10)
die mechanische Impedanz gerade eben aufhebt, wenn für die neuronalen Größen
R', D' und C' die genauen Werte von R, D und m.g.a eingesetzt werden und für
Winkelgeschwindigkeit und Winkelposition ebenfalls genaue neuronale Repräsentationen zur Verfügung stehen. Sind diese Bedingungen erfüllt, kann also der in (4.3)
und (4.4) niedergelegte einfache Zusammenhang trotz der Wirkung zusätzlicher mechanischer Kräfte, welche durch Reibung, Federeigenschaften und Schwerkraft vermittelt werden, wieder hergestellt werden.
Abbildung 4.7: Invertierung der Werkzeugtransformation durch ImpedanzKompensation
Die Abb.4.7 zeigt an Hand eines Flußdiagramms, in dem die in Abb.1.5 eingeführten
Symbole verwendet werden, wie im neuronalen Kontroller das muskuläre Drehmoment Q(t) unter Einschluß des zur Kompensation dienenden Drehmoments Qk(t) also die Invertierung der Werkzeugtransformation im allgemeinen Fall - mittels analoger Rechentechnik berechnet werden kann. Die Funktionsweise des Arms ist in
Abb.4.5 niedergelegt. Man erkennt, daß die an der Peripherie zu messenden Werte
ϕ( t) und ϕ& ( t) dem neuronalen Rechenwerk unbedingt zur Verfügung gestellt
werden müssen. Die Konstanten M', R', D' und C' werden als bekannt angenommen
und dem Kontroller über "absteigende Bahnen" zugeführt. Diese Konstanten können,
wie weiter unten gezeigt wird, im Prinzip im Rahmen eines Auto-Imitationsprozesses
bestimmt (identifiziert) werden. Bei hinreichend genauer Identifizierung der
& ( t) ist die am
Konstanten M, R, D, C und Messung der Zustandsvariablen ϕ( t) und ϕ
Arm zu beobachtende Winkelbeschleunigung gleich der vom zentralen
Mustergenerator CPG vorgegebenen gewünschten Beschleunigung.
26
Bei mechanischen Systemen werden, wie schon gesagt wurde, Position und
Geschwindigkeit als die Zustandsgrößen bezeichnet, welche in jedem Augenblick
den Systemzustand vollständig beschreiben, dh., bei Kenntnis dieses Systemzustands und der Eingangsvariablen (hier der äußeren Kräfte bzw. Drehmomente) zu
einem bestimmten Zeitpunkt können der Systemzustand und die Ausgangsvariable
(hier: die Beschleunigung) bei Kenntnis des Vorwärtsmodells zu einem beliebigen
späteren Zeitpunkt vorhergesagt werden. Zur Berechnung der inversen Transformation eines zu kontrollierenden Prozesses werden in der Regel alle diese Zustandsvariablen explizit benötigt, was in der Systemtheorie auch als 'Zustandsrückführung' (s.
auch (1.2)) bezeichnet wird.
4.2.1.5 Reflexanaloge Verarbeitung und Zustandsrückführung
Auch im vorliegenden Fall ist eine solche Zustandsrückführung zum "Betrieb" des
Modells der inversen Werkzeugtransformation erforderlich. Die rückgeführten Zu& ( t) sind in diesem Falle die Zustandsvariablen, welche den
stände ϕ( t) und ϕ
Zustand des mechanischen Armsystems zum Zeitpunkt t wiedergeben. Diese werden
in Abb.4.7 nicht im Rahmen einer Regelung (negative feedback), sondern vielmehr
im Rahmen einer Steuerung (feedforward) verwendet. Die spezielle Signalführung
legt nahe, diese Art der Steuerung als positive Rückkopplung zu interpretieren,
welche bei Kontrollaufgaben gewöhnlich als unerwünscht gilt, weil sie auf das
System destabilisierend wirkt. Im vorliegenden Fall jedoch ist das Koppelungsnetz so
ausgelegt, daß es das System steuerbar macht, indem die mechanische Impendanz
neuronal
kompensiert
wird.
Die
davorgeschaltete
Multiplikation
der
&&
Zielbeschleunigung ϕ z ( t) mit der geschätzten Trägheit M' komplettiert dann die
Invertierung der Werkzeugtransformation.
Analogrechner-Flußdiagramme nach Art der Abb.4.7 repräsentieren verteiltes
Rechnen und sind häufig unmittelbar in eine auch neuronal plausible Form zu über& ( t) an der
führen. Hier etwa kann man annehmen, daß die Variablen ϕ( t), ϕ
Peripherie durch geeignete 'Sensoren' gemessen werden, deren 'Axone' dann mit
dem 'Motoneuron', welches den Arm antreibt, in synaptischen Kontakt treten. Die
Konstanten R', D' und C' sind dann als die entsprechenden synaptischen Gewichte
zu interpretieren, während über einen weiteren synaptischen Kontakt mit dem
Gewicht M' die vom Mustergenerator (CPG) vorgegebene Zielbeschleunigung
&& z ( t) zugeführt wird. Die Funktion des Motoneurons ist dabei die eines Addierers mit
ϕ
vier Eingängen. Die Abb.4.8 zeigt eine entsprechende Darstellung eines neuronalen
Kontrollers, der sich allerdings gerade in der Lernphase befindet. Die Einspeisung
und Verarbeitung des Armzustands geschieht danach also nach Art von 'Reflexen',
was die Bezeichnung 'reflexanaloge Verarbeitung' nahelegt (Kalveram 1991).
27
4.2.1.6 Parameter-Identifizierung durch auto-imitatives Lernen
Wie im Rahmen der Invertierung der Werkzeugtransformation die Konstanten M', R',
D' und C' im Prinzip bestimmt werden können, ist im Schaltbild der Abb.4.8 dargestellt. Die Bedeutung der Symbole in dem gestrichelt umrandeten Kästchen ist dieselbe wie in Abb 1.5 und Abb. 2.6. Das langgestreckte ovale Neuron mit der Bezeichnung "+" wird als 'Moto-Neuron' aufgefaßt, das im Normalbetrieb über die oben
und seitlich angebrachten Synapsen aktiviert werden kann und als Output das
muskuläre Drehmoment Q erzeugt. Diese Synapsen werden als plastisch angesehen
und müssen auf die Parameter M, R, D und C des physikalischen Systems abgestimmt werden. Die beiden anderen Neurone dienen zur Einstellung der mechanischen Gleichgewichtsposition und zur Eingabe der Schwerkraftrichtung. Die betreffenden synaptischen Gewichten sind 1 und -1.
Die in der linken unteren Ecke der Abb.4.8 dargestellt Teilschaltung zeigt eine
Möglichkeit auf, wie mit Hilfe eines lernfähigen neuronalen Netzwerkes die SinusFunktion berechnet werden kann. Es handelt sich hierbei um eine Approximation der
Sinus-Funktion durch eine dreigliedrige Potenzreihe; denn die Zahlen 1, 3 und 5 an
den Synapsen der Multiplizier-Zellen stehen für die Exponenten, mit denen Eingangsvariablen jeweils zu potenzieren sind, während die synaptischen Gewichte
beim Summationsneuron "+" die Koeffizienten darstellen. Ein Beispiel für ein solches
"Potenzierungsnetzwerk" größeren Umfangs ist bei der Behandlung des zweigelenkigen Arms zu finden. Dieses Teilnetzwerk kann an die Stelle des Blocks mit der Bezeichnung "Sinus" gesetzt werden. Die Synapse C muß in diesem Falle durch drei
Synapsen mit den Stärken C'1, C' 3 und C'5 ersetzt werden.
Zu Beginn des auto-imitativen Lernprozesses werden die drei neuronalen
Schalter in die eingezeichnete Stellung 2 gebracht und den oberen Synapsen zunächst das Gewicht Null zugeordnet Die untere Synapse übernimmt die Rolle des
'teaching input', über den dem Neuron die vom Signalgenerator mit der Bezeichnung
'blinder Lehrer' vorgegebene Aktivierung Q(t) gezeigt wird, die als Drehmoment gleichen Betrages auch den Arm in Bewegung versetzt. Q(t) entspricht also der Efferenz
e in Kapitel 4.2.1 bzw. Abb.4.3. Die vom blinden Lehrer emittierte Zeitfunktion Q(t) ist
dabei beliebig und verfolgt, abgesehen vom Training des Netzes, keine weiteren
Zwecke. Der Name 'blinder Lehrer' soll andeuten, daß der Lehrer den Erfolg des
Trainings nicht zur Kenntnis nimmt, ja nichteinmal erkennen kann, ob das Training
&&( t) erhält man
& ( t) und ϕ
überhaupt erfolgreich ist. Über die Rückführung von ϕ( t), ϕ
die für das Lernen benötigten präsynaptischen Aktivierungen.
Abbildung 4.8 : Invertierung der Werkzeugtransformation des Arms durch Zustandsrückführung, dargestellt als "reflexanaloge Verarbeitung"
28
Eine Möglichkeit, die Gewichte der Synapsen zu bestimmen, ist folgende: Man
geht von der Differenzialgleichung (4.1) aus und initiiert über den blinden Lehrer eine
Armbewegung. Zu den Zeitpunkten t1, t2, ...., tn mißt man die kinematischen Werte
(Winkel-Beschleunigung, -Geschwindigkeit und -Position) des Arms sowie das auf
den Arm vom blinden Lehrer ausgeübte Drehmoment. Schreibt man für diese Werte
die Differentialgleichung 4.1) n-mal aus, erhält man
&&(t 1 ) ⋅ M'+ ϕ& (t 1 ) ⋅ R'+ ϕ( t1 ) ⋅ D '+ sin{ϕ(t 1 )}⋅ C' = Q(t 1 )
ϕ
&&(t 2 ) ⋅ M'+ ϕ
& ( t 2 ) ⋅ R'+ ϕ( t 2 ) ⋅ D'+ sin{ϕ( t 2 )}⋅ C' = Q(t 2 )
ϕ
.
(4.11)
.
&&(t n ) ⋅M'+ϕ& (t n ) ⋅ R'+ϕ( t n ) ⋅ D'+ sin{ϕ( t n )}⋅ C' = Q(t n )
ϕ
Zur Vereinfachung sind hierbei ϕ 0 und ϕ g zu Null angenommen. Mathematisch gesehen ist (4.11) ein lineares inhomogenes Gleichungssystem mit den kinematischen
ϕ als Koeffizienten und den Konstanten M', R', D', C' als Unbekannte.
Werten ϕ, ϕ& , &&
Als Lösung des Gleichungssystems - sofern sie existiert - erhält man dann die entsprechenden Werte für die Konstanten. Wenn die Sinusfunktion, wie in Abb.4.8 in der
linken unteren Ecke angedeutet ist, durch eine Potenzreihe dargestellt wird, die nach
drei Gliedern abgebrochen wird, so muß man natürlich in (4.11) den jeweils letzten
Term vor dem Gleichheitszeichen durch die (abgebrochene) Taylor-Entwicklung
ϕ(ti ) ⋅ C'1 +ϕ 3 (ti ) ⋅ C' 2 +ϕ 5 (ti ) ⋅ C' 3 (i=1,2,...,n) ersetzen.
In der anschließenden Aktivitätsphase werden die Schalter in Abb.4.8 in die Position
1 gebracht und damit auch der blinde Lehrer abgeschaltet. An den Zustandsrückführungen und ihrer Verarbeitung wird jedoch nichts verändert. Bei zutreffender Bestimmung der Konstanten M', R', D' und C' ist dann der Arm voll und präzise steuerbar. Eine alternative Bestimmung der Konstanten wird in Abb.4.11 gegeben.
Ein zu erwähnender Umstand ist allerdings, daß Propriozeptoren, welche Winkelgeschwindigkeit und Winkelposition bei Gliedmaßenbewegungen erfassen können, bekannt sind, aber keine, welche auf die Winkelbeschleunigung reagieren. Andererseits weiß man, daß die in den Sehnen herrschende Zugspannung propriozeptiv erfaßt wird. Diese Zugspannung setzt sich in den Sehnen, mit denen die Muskeln
am Skelett angesetzt sind, zusammen aus den muskulären Drehmomenten und den
mechanisch-dynamischen Rückwirkungen von Dämpfung, Federkonstante und
Schwerkraft. Sie kann nach Gleichung (4.2) bzw. Abb.4.5 unmittelbar hinter dem
Vierfach-Addierer als Variable k(t) abgegriffen werden und ist proportional zu
ϕ˙˙ (t) ⋅ M , also zum Produkt aus Winkelbeschleunigung und Trägheit. Das bedeutet,
29
daß dem Organismus zumindest eine der Winkelbeschleunigung proportionale
Größe zur Verfügung steht. Im Interesse der Klarheit der Ausführungen werden die
˙˙(t) direkt propriozeptiv erfaßt wird,
Berechnungen aber unter der Annahme, dass ϕ
durchgeführt. Sie könnten bei Bedarf mit leicht vergrößertem Aufwand auch auf
ϕ˙˙ (t) ⋅ M bezogen werden, was hier aber unterbleiben soll.
Da der System-Zustand des Arms, also Winkelgeschwindigkeit und -position,
propriozeptiv erfaßt wird, kann die Art der Zustandsrückführung auch als propriozeptive Steuerung (propriozeptive feedforward, s. Mittelstaedt 1990) bezeichnet werden,
oder, da die Einarbeitung der Zustandsvariablen in den Signalkreislauf nach Art von
Reflexen geschieht, auch, wie oben bereits angedeutet, als reflexanaloge Verarbeitung (reflex-like processing; s. Kalveram 1991). Die neuronal repräsentierten Konstanten M', R', D' und C' sind in diesem Bilde dann als die Verstärkungsgrade (gains)
der betreffenden Reflexe zu interpretieren. Die Schwierigkeiten, die sich hierbei aus
der neuronal verursachten endliche Leitungsgeschwindigkeit ergeben, werden weiter
unten behandelt.
4.2.1.7 Ermittlung des inversen Modells: Ein schlecht gestelltes Problem?
In bisher angestellten Simulationsversuchen hat sich sich herausgestellt, daß die Parameter des inversen Modells, also die Konstanten M', R', D' und C' (bzw. M', R', D'
und C'1, C'2, C' 3) in der Tat identifiert werden können - allerdings nur unter der Vorϕ und die dynamischen Werte Q
aussetzung, daß die kinematischen Werte ϕ, ϕ& , &&
des Arms mit hoher Präzision zur Verfügung stehen. Schon bei geringen
unsystematischen Variationen der Meßwerte können sich von Fall zu Fall ganz
verschiedene Lösungen ergeben, in denen die physikalisch vorgegebenen
Parameter nicht wiederzuerkennen sind. Das liegt daran, daß die Koeffizientenmatrix
des Gleichungssystems (4.11) bei Wahl eines ungünstigen Bewegungsmusters
durch den blinden Lehrer eine Determinante hat, welche nahezu Null ist. Man sagt
auch: Das Gleichungssystem hat eine schlechte Kondition. In einem solchen Falle
wird die Lösung instabil, dh. schon bei geringen unsystematischen Schwankungen
der eingehenden Werte (hier der die Koeffizienten repräsentierenden Meßwerte für
ϕ ) findet man große Schwankungen der
die kinematischen Größen ϕ, ϕ& , &&
Ausgangswerte (hier der Lösungen für die Parameter M', R', D' und C' ). Nach
Hadamard (1923) ist ein Problem schlecht gestellt, wenn von den drei Bedingungen
"Existenz", "Eindeutigkeit" und "Stabilität" der Lösung (mindestens) eine nicht erfüllt
ist. Offensichtlich also handelt es sich bei der Aufgabe, das Modell der inversen
Werkzeugtransformation zu bestimmen, um ein Problem, welches dazu neigt,
schlecht gestellt zu sein, und zwar wegen der fehlenden Stabilität der Lösung.
30
Was nun bedeutet es für die Aktivitätsphase, in der das inverse Modell angewendet wird, wenn der auto-imitative Prozeß infolge der Schlechtgestelltheit neuronale Konstanten auswirft, welche von den physikalischen Konstanten deutlich abweichen? Diese Frage ist leicht zu beantworten: Sind die neuronalen Konstanten zu
klein, wird der betroffene Teil der Impedanz nicht kompensiert und die tatsächliche
Beschleunigung bleibt hinter der gewünschten zurück. Haben die neuronalen Konstanten hingegen zu hohe Werte, ergibt sich eine Überkompensation. Da dies meist
gleichbedeutend mit positiver Rückkopplung ist, wird in diesen Fällen der Arm die
Tendenz zeigen, aus dem vorgegebenen Beschleunigungsrahmen auszubrechen,
dh. instabil zu werden. In jedem Falle wird der Arm weniger gut oder auch überhaupt
nicht steuerbar sein und schlimmstenfalls 'wild' um sich schlagen. Dies unterstreicht
nochmals die Wichtigkeit des Unterdrückens von Fremdsignalen beim auto-imitativen
Lernen gem. Abb.4.4a .
4.2.1.8 Regularisierung, Relaxation und Hebb-sches Lernen
Unter Regularisierung versteht man die Anwendung von Methoden, welche bei einem schlecht gestellten Problem obiger Art dennoch zu vernünftigen Lösungen führen. Unsere Versuche, solche Methoden auf das Gleichungssystem (4.11) mit "verrauschten" Koeffizienten anzuwenden, sind anfangs jedoch allesamt fehlgeschlagen
(Kalveram & Natke 1997). Vermutlich lag das daran, daß wir bei dem Gleichungssystems der Art (4.11) zunächst keine geeignete fehlerreduzierende Mittelwertbildung für die Koeffizienten angewendet hatten. Erfolgversprechend erwies sich jedoch, sehr viele Einzelmessungen durchzuführen, also von einem stark überbestimmten Gleichungssystem der Art (4.11) auszugehen und die Lösung mit der Methode der kleinsten Quadrate zu ermitteln. Eine solche Methode dürfte jedoch keine
neuronale Entsprechung haben. Eine andere Idee ist , den Erwerb des inversen Modells konsequent als Relaxations-Aufgabe des Gesamtsystems, bestehend aus dem
physikalischen Arm und seinem Kontroller, zu definieren und auf Hebbsches Lernen
zurückzuführen. Dies soll im folgenden im einzelnen beschrieben werden.
Technisch gesehen handelt sich bei dem Arm-Kontroller-System um einen geschlossenen Kreis, in dem sich die in Abb.4.8 eingezeichneten synaptischen Gewichte so einstellen müssen, daß zwischen präsynaptisch erzeugter Erregungssumme (entspricht den linken Seiten der Gleichungen (4.11)) und postsynaptischer
Erregungseinprägung (rechte Seiten der Gleichungen (4.11)) ein Ausgleich erzielt
wird. Dieser Ausgleich kann über geeignet modifzierte Hebb-sche Synapsen erfolgen.
Wie man sich die Funktionsweise von normalen Hebb-Synapsen (Hebb 1949)
vorstellen kann, soll zunächst kurz erläutert werden: Ausgegangen wird von einem
31
formalen Neuron mit input x, synaptischem Gewicht w und linearer Charakteristik.
Die Synapse soll Hebbsch sein, dh. ihre Stärke w soll sich von anfänglich Null in der
anschließenden Lernphase als Produkt aus präsynaptischer Erregung x und der
gleichzeitig herrschenden postsynaptischen Erregung y ergeben, wobei die postsynaptische Erregung y der Nervenzelle über eine erzwingende Synapse während der
Lernphase eingeprägt wird. Diese erzwingende Synapse stellt also eine Art “teaching” input der Zelle dar. Nach Abschluß der Lernphase, also in der Kannphase, hat
die Synapse das Gewicht w und der output der Nervenzelle nimmt einen gegenüber
der Ausgangslage veränderten Wert z=w.x an, wenn der input x angelegt wird. Verallgemeinert für den kontinuierlichen Fall lautet die Hebbsche Lernregel also
T
w = r ⋅ ∫ x( t ) ⋅ y( t) dt ,
0
(4.12)
wobei T die Dauer der Lernphase und die Konstante r die Lernrate bedeuten. w ist
also ein Maß für die Kreuzkorrelation zwischen prä- und postsynaptischer Erregung,
berechnet über die Zeitdauer T.
Abbildung 4.9 : Blockschaltbild einer Hebb-schen Synapse.
Auf der Abb.4.9 ist für den kontinuierlichen Fall das Blockschaltbild einer Hebbschen
Synapse in der Lernphase zu sehen. In der Lern-Phase ist der Integrator I auf
"integrieren" gestellt, so daß er das Produkt aus x(t) und y(t) kontinuierlich
aufsummieren kann. Nach dem Lernen wird der Integrator auf "halt" geschaltet (etwa
durch Abtrennen der Eingangsvariablen des Integrators) und/oder die
Eingangsvariable y auf Null gesetzt. Der Input x erzeugt dann den Anteil z=w.x am
postsynaptischen Potential. Ist nur eine Eingangsynapse vorhanden, ist z auch gleich
dem Output der Zelle. Ein grundsätzlicher Nachteil dieser Trainingsart ist, daß die so
bestimmte Synapsenstärke divergiert, und zwar gegen (plus oder minus) unendlich
(MacKay & Miller 1990), dh. bei langer Trainingsphase wird stets der maximal
mögliche Wert angenommen, wenn x und y positiv korreliert sind, und der minimal
mögliche Wert, wenn die Korrelation zwischen x und y negativ ist. Zur Erzwingung
von Konvergenz können verschiedene Normierungsmethoden angewendet werden
(vgl. Shouval & Perrone 1995). In vielen Fällen würde sicher auch die Division des
Integrals durch die Trainingsdauer T genügen, also die Bildung des zeitlichen
Mittelwerts des Produktes x(t).y(t).
Abbildung 4.10 : Relaxations-Synapse als Modifikation der Hebb-Synapse
32
In der Abb.4.10 wird ein hiervon abweichender Weg vorgeschlagen: Innerhalb der
gestrichelten Umrandung ist eine Modifikation der Hebb-schen Synapse dargestellt,
bei der die Lernrate r mit negativem Vorzeichen in die Berechnung der
Synapsenstärke eingeht. Im unteren Teil der Abb.4.10 ist die Verschaltung
angedeutet, in den diese Synapse - zusammen mit anderen Synapsen gleichen Typs
- eingebettet ist. Nach der in Abb.4.9 vermittelten Auffassung müßte der Nervenzelle
die später zu zeigende Ausgangs-Aktivität y während der Lernphase über den LernEingang eingeprägt werden.
Im Gegensatz dazu bildet in Abb.4.10 die Variable y mit der Zelle eine
gewöhnliche, aber hemmende Synapse mit dem Gewicht -1 aus. Die über den LernEingang zugeführte Variable y wird nunmehr von der Aktivierungssumme, die über
die n plastischen synaptischen Eingänge erzeugt wird, abgezogen. Die resultierende
Erregung der Nervenzelle ist somit bei nur einer Synapse wi.xi - y, oder, wenn mit
z=
n
∑ w i ⋅ xi
die Erregungssumme aller n Eingangssynapsen bezeichnet wird, z-y.
i =1
In der Lernphase ist also die Differenz z-y als postsynaptische Erregung
anzusetzen, welche entsprechend der Hebbschen Regel mit der präsynaptischen
Erregung x i zu multiplizieren ist. Integration über das Produkt und Berücksichtigung
der Lernrate mit -r ergibt sodann
T
n
0
i=1
wi = −r ⋅ ∫ xi ⋅ ( z − y) dt mit z = ∑ wi ⋅ xi und T → ∞ .
(4.13)
Können in der Lernphase die synaptischen Gewichte wi so bestimmt werden, daß die
Differenz z-y bei jeder Belegung der Variablen xi und y konstant den Wert Null ergibt,
so folgt, daß die Integrale konvergieren. Der Lernvorgang ist also - so kann man
sagen - auf Relaxation angelegt, denn er bringt die postsynaptische Erregung der
Nervenzelle zum Verschwinden. Entsprechend kann für den in Abb.4.10
dargestellten Übertragungstyp auch die Bezeichnung "Relaxations-Synapse" gewählt
werden. Eine zu lange Dauer der Lernphase kann das Ergebnis nicht mehr
verfälschen, ebenso geht der Betrag r der Lernrate im Prinzip nicht in das Ergebnis
ein. Bei kleinem r ist lediglich die Lernphase zu verlängern. Bildet man die zeitliche
Ableitung der in (4.13) dargestellten Funktion, so erhält man dwi = r ⋅ x i ⋅ (y − z)⋅ dt .
Offenbar also entspricht die obige Formel (4.13) einer linearen Delta-Regel zur
Bestimmung von synaptischen Gewichten für den kontinuierlichen Fall, wobei die
algebraische Lösung im Rahmen des rekursiven Schemas der Abb.4.11 erfolgt. Für
die Aktivitätsphase ist der Integrator dann wieder auf "Halt" zu schalten und am
Lern-Eingang muß y=0 gesetzt werden. Aus Abb.4.10 ergibt sich dann, daß das
Ausgangssignal gleich y sein muß, wenn der Lernvorgang erfolgreich war.
33
In Abb.4.11 findet man diese Überlegungen auf das Erlernen der inversen
Werkzeugtransformation des eingelenkigen Arms angewendet (vgl. Kalveram
1998b). Der Fluß der Informationen in diesem rekursiven Schema entspricht dem der
Abb.4.7. bzw. 4.8. Die Kästchen M', R', D' und C1', C 3', C 5' bezeichneten
Relaxations-Synapsen, allerdings können, was nicht zu ersehen ist, verschiedene
Lernraten r verwirklicht sein. In diesem Schema wird deutlich, daß die Relaxation am
neuronalen Netz unter Einbeziehung der Umwelt, hier des Arms, erfolgt, was
nochmals verdeutlicht, daß bei diesem Lernvorgang das zu kontrollierende System
und sein Kontroller eine unzertrennbare Einheit bilden.
Abbildung 4.11 : Erwerb des inversen Modells durch Relaxation
In Ergänzung zu Abb.4.4a und Abb.4.8 wird in der das vom blinden Lehrer
abgegebene Signal vor Einspeisung in den Lerneingang des neuronalen Netzes
einer Verzögerung ∆t unterworfen. Dies dient dazu, diejenige Verzögerung
auszugleichen, die bei einem biologischen Arm durch die propriozeptive Erfassung
der Positions-, Geschwindigkeits- und Beschleunigungs-Signale sowie deren
endliche Übertragungsgeschwindigkeit notwendigerweise auftreten. Entspricht ∆t der
Signalverzögerungszeit dieser drei Variablen, so sind die am Lerneingang und dem
Normaleingang des zu trainierenden Netzwerkes eintreffenden neuronalen Signale
zeitlich exakt aufeinander bezogen, eine Vorbedingung für auto-imitatives Lernen.
Die Simulation ergibt, daß die Konstanten M', R', D' und C' prinzipiell auf diese
Weise exakt bestimmt werden können. Bei Zuschaltung von weißem Rauschen auf
die kinematischen Größen des Arms ist jedoch erforderlich, daß die Lernrate
herabgesetzt wird, das Lernen also verlangsamt wird, und die vom blinden Lehrer
initiierten Trainingsbewegungen mehrfach wiederholt werden. Ferner ist erforderlich,
daß in den vom blinden Lehrer herbeigeführten Trainingsbewegungen sowohl
schnelle wie auch langsame Anteile vorkommen. Die schnellen Anteile führen zum
Erwerb der inversen Dynamik, die langsamen zum Erwerb der inversen Statik. In
Abb.4.12 ist ein entsprechender Lernverlauf (für D=0) dargestellt. Man sieht deutlich,
daß die synaptischen Gewichte auf die vom Armodell vorgegebenen Werte
konvergieren.
Abbildung 4.12 : Konvergenz der synaptischen Gewichte beim modifizierten Hebbschen Lernen
Mit der Rückführung auf die Hebbsche Lernregel ist damit der Erwerb des
inversen Modells der Werkzeugtransformation - und damit der Grundgedanke, daß
zielgerichtetes Handeln durch inverse Modellierung des Umweltverhaltens ermöglicht
34
wird - an einen physiologisch und biochemisch plausiblen Mechanismus neuronalen
Lernens, nämlich an die Langzeitpotenzierung, angebunden.
4.2.1.9
Parallel-Serien-Wandlung, Serien-Parallel-Wandlung und
Mehrebenenkontrolle
Die Abb.4.13 faßt den bisherigen Gedankengang nochmals zusammen und ergänzt
ihn dabei durch zwei zusätzliche Überlegungen. Als erstes fällt auf, daß die Abb.4.13
zwei verschiedene Kontrollebenen enthält, welche an den Übergangstellen durch die
gestrichelt gezeichneten Funktionseinheiten 'Parallel-Serien-Wandlung' und 'SerienParallel-Wandlung' verbunden sind. Unter einer Parallel-Serien-Wandlung versteht
man in der Nachrichtentechnik einen Vorgang, bei dem ein Ereignis aus einer quasi
räumlichen in eine zeitliche Dimension umgesetzt wird. Mit "quasi räumlich" ist gemeint, daß das Ereignis in einem Code vorliegt, der die Zeit nicht enthält. Oft ist damit zusätzlich auch eine symbolische Kodierung verbunden. Umgekehrt bedeutet
eine Serien-Parallel-Wandlung, daß ein Ereignis, welches zeitlich erstreckt ist, eine
Kodierung erhält, in welcher die Zeit keine Beschreibungskategorie mehr ist. Hier
wird der parallel vorliegenden Zieldiskrepanz δϕ durch den Mustergenerator eine
&& z ( t) , zugeordnet. Die Funktion der Serien-Parallel-Wandlung
Zeitfunktion, nämlich ϕ
ist, die Zeit aus dem Strom der Ereignisse wieder zu eliminieren, also die Umkehrung
der Parallel-Serienwandlung vorzunehmen. Sie wird im wesentlichen durch die sensorische Verarbeitung vollzogen, welcher der zeitlich erstreckten Bewegungsfigur
den Endpunkt ϕ(T) zuordnet. Beide Wandelprozesse werden uns bei der Besprechung des taktischen Apparates wiederbegegnen.
Abbildung 4.13 : Mehrebenenkontrolle, Parallel-Serien-Wandlung und SerienParallel-Wandlung bei der eingelenkigen Bewegung
Die Ebene, auf der die Information parallel vorliegt, wird im weiteren auch die 'parallele Ebene' genannt. Die Wirkungsübertragung auf dieser Ebene wird durch Doppelpfeile angezeigt. Die hier interessierenden Teile des Bewegungsverlaufs reduzieren
sich auf den Anfangs- und den Endpunkt der Bewegung. Dh. die Zeit wird als diskret
angesehen und es werden nur die Winkelpositionen zu Beginn (t=0) und am Ende
(t=T) des vom CPG ausgegebenen Musters für die Steuerung der Bewegung herangezogen: Die Startposition dient zur Bestimmung der Zieldiskrepanz, die Endposition
kann zur Adjustierung des Parameters p herangezogen werden, wenn dieser ungenau eingestellt ist. Die Adjustierung kann nach der Vorschrift pflp+r.dϕ erfolgen,
wobei der links vom Pfeil stehende Wert der neue Wert für p ist, der sich aus dem
rechts vom Pfeil stehenden alten Wert für p durch Addition des Korrekturterms r.
dϕ ergibt. Hierbei bedeuten
dϕ = ϕ z − ϕ(T )
den Fehler zum Zeitpunkt T, also bei
35
Beendigung der Musterausgabe, und r die Lernrate. Wählt man die Lernrate r zu
p/∆ϕ (wobei ∆ϕ = ϕ(T ) −ϕ(0) der tatsächlich zwischen den Zeitpunkten t=0 und t=T
überstrichene Winkel ist), erhält man den korrekten Wert für p bereits nach einer einzigen Bewegung.
Die Ebene, auf der serielle Informationsverarbeitung vorliegt, wird im weiteren
auch als 'serielle Ebene' bezeichnet. Hier wird die Wirkungsübertragung durch einfache Pfeile angedeutet. Die verarbeiteten Variablen (Drehmoment, Winkelgeschwindigkeit usw.) sind in kontinuierlicher Zeit definiert. Es ist dies die Ebene, die durch die
Differentialgleichung (4.1) bestimmt wird. In diesem Subsystem geschieht auch die
reflexanaloge Verarbeitung der peripheren Signale.
Technisch gesehen bilden die parallele und die serielle Verarbeitung eine aus
zwei Systemen bestehende Hierarchie, bei welcher die parallele Ebene der seriellen
übergeordnet ist. In jedem der Systeme erfolgt die Bewegungskontrolle in anderen
Zeiteinheiten. Der zeitdiskrete Prozeß läuft auf der 'höheren Kontroll-Ebene' ab, auf
der die Parameter bestimmt und adjustiert (also geregelt) werden, welche auf der
'unteren Kontroll-Ebene' für die seriellen Prozesse benötigt werden. Sowohl die im
parallelen Teil angeordnete Ermittlung der Zieldiskrepanz als auch die im seriellen
Teil on-line durchgeführte Invertierung der Werkzeugtransformation sind Steuerungsvorgänge, haben also den Rang von Taxien. Die erfolgsabhängige Adjustierung des
Parameters p im parallelen Teil ist hingegen ein Regelungvorgang und daher biologisch unter "Appetenzverhalten", lerntheoretisch unter "Selbstabgleich" (s. auch Kapitel 3.4.1) einzuordnen. Auch im seriellen System kann Regelung hinzugefügt werden, wie später noch näher erörtert werden wird.
4.2.1.10 Motorvariabilität bei Zielinvarianz: Das Redundanzproblem
Ein- und dasselbe sensorische Ziel kann motorisch auf verschiedene Weise herbeigeführt werden, z.B. kann ein Ziel schnell oder langsam und auch mit unterschiedlichen Geschwindigkeitsverläufen angefahren werden. Aus (4.9) folgt, daß bei derselben Zieldiskrepanz sowohl Amplitude q als auch Dauer T des erzeugten Musters beträchtlich variieren können, ohne das die Bewegungsgenauigkeit beeinträchtigt wird,
da nur das Produkt q.T2 konstant gehalten werden muß, was man auch als Spezialfall einer Re-Skalierbarkeit von Kraft und Zeit (Heuer 1984) ansehen kann. Eine weitere Redundanz ist dadurch gegeben, daß die Form des vorgegebenen Musters varieren kann, wenn nur die in Abb.4.6angedeuteten Flächen jede für sich gleich bleiben. Dieses sind Ursachen - wenn auch nicht alle - für die immer wieder beobachtete Motorvariabilität bei Zielinvarianz. Die relative Freiheit der Wahl der Bewegungsdauer T kann ferner dazu ausgenutzt werden, die Dauern weiterer gleichzeitig auszuführender Automatismen aufeinander abzustimmen. Ein außenstehender Beob36
achter kann dann den Eindruck gewinnen, daß die verschiedenen Automatismen der
Phase nach intrinsisch gekoppelt sind und mag auf eine koordinative Struktur schließen, welche trotz variierender Geschwindigkeiten und Amplituden wie eine einzige
Einheit arbeitet. Auch das Isochronie-Prinzip, welches die Beobachtung beschreibt,
daß hoch automatisierte Bewegungen unterschiedlicher Bewegungsamplituden oft
nahezu zeitgleich ausgeführt werden, wird durch (4.9) erklärt.
4.2.1.11
Lernen und Anwenden des inversen Modells bei Verzögerung der
Zustandsrückführung
Unter physiologischen Bedingungen sind die Meldungen über Winkelbeschleunigung,
-geschwindigkeit und -position des Arms, sofern sie propriozeptiv vermittelt sind,
infolge endlicher Leitungsgeschwindigkeiten bei ihrer Ankunft am Eingang des
Kontrollers gegenüber dem vom blinden Lehrer in den Lerneingang abgegebenen
Signal zeitlich verschoben. Erfolgreiches Lernen und späteres Anwenden des inversen Modells erfordern aber das Einhalten der relativen Gleichzeitigkeit aller dieser
Signale, dh. die zum gleichen Zeitpunkt am physikalischen Objekt abgenommenen
Meßwerte für Beschleunigung, Geschwindigkeit und Position einerseits und das antreibende Drehmoment andererseits müssen in derselben zeitlichen Ordnung auch
dem Kontroller zur Verfügung stehen. In der Lernphase ist der Kontroller nur "beobachtend" tätig. Relative Gleichzeitigkeit ist dann dadurch zu gewährleisten, daß
das vom blinden Lehrer ausgehende Motor-Signal, bevor es in den Lerneingang eingespeist wird, um denjenigen Betrag verzögert wird, den auch die propriozeptive
Rückmeldung aufweist. In Abb.4.11 wird diese Verzögerung durch das kleine Quadrat mit der Bezeichnung "∆t" in der Zuleitung zum Lerneingang angedeutet.
Die in der Aktivitätsphase ebenfalls erforderliche relative Gleichzeitigkeit zwischen den Signalen, welche den momentanen Bewegungszustand (Winkelgeschwindigkeit und -position) des Arms melden, und dem aktuellen Drehmoment ist
nicht so einfach zu erreichen, weil der Kontroller hier steuernd in den physikalischen
Prozeß eingreift und zur Berechnung des aktuell zu erzeugenden Drehmoments die
momentanen Zustandswerte des Prozesses tatsächlich auch kennen muß. Hier
kommen die neuronal vermittelten Zustandsrückmeldungen in jedem Falle zu spät,
ein handicap, welches sich insbesondere bei im Vergleich zur Verzögererungszeit
schnellen Bewegungen auswirkt. Abhilfe kann hier nur die Vorhersage des Systemzustands schaffen. Unter der Annahme, daß in der Lernphase das inverse Modell der
Werkzeugtransformation präzise identifiziert worden ist, läßt sich dieses Problem jedoch prinzipiell lösen: Der Systemzustand läßt sich nämlich nun aus der gewünsch˙˙ z(t) durch Integration vorausberechnen. Abb.4.14 zeigt eine
ten Beschleunigung ϕ
hierfür geeignete Anordnung: Das von links herangeführte gewünschte Beschleuni&& z ( t) wird vom inversen Modell S-1 des Kontrollers in ein Drehmoment
gungssignal ϕ
37
Qs(t) umgesetzt, welches den Arm in der gewünschten Weise antreibt. Gleichzeitig
&& z ( t ) vorhergewerden ϕ& z ( t ) und ϕ z ( t ) durch ein- bzw. zweimalige Integration von ϕ
sagt.
Abbildung 4.14 : Zustandsvorhersage durch Integration des Beschleunigungs-Ziels
Die Existenz entsprechender neuronaler Integratoren kann biologisch als gesichert
gelten, sie wurden z.B. von Eckmiller (1985) experimentell im Bereich der Okulomotorik nachgewiesen. Bei fehlenden äußeren Störungen müssen dann die am physikalischen System abgenommenen aktuellen Werte ϕ˙ (t) undϕ( t) mit den vorhergesagten Werten übereinstimmen, so daß das inverse Modell jetzt mit den vorhergesagten Zustandsgrößen betrieben werden kann. Dem wird in Abb.4.14 dadurch
Rechnung getragen, daß die Pfeile, welche die jeweils aktuellen Zustandsgrößen
symbolisieren, vom inversen Modell abgetrennt sind und statt dessen die vorhergesagten zugeführt werden. In diesem Falle arbeitet die Steuerung über die inverse
Modellierung vollständig automatisch, dh. ohne jede periphere Rückmeldung, eine
Betriebsart, die man als Steuerung mittels "predicted feedback" bezeichnen kann
(Kalveram 1991b).
4.2.1.12 Einbettung der Steuerung durch inverse Modellierung in Regelkreise
In den bisherigen Ausführungen war, zumindest soweit die serielle Ebene betroffen
war, ausschließlich die Steuerung über die Inversion der Werkzeugtransformation
Gegenstand der Betrachtungen. Unter Anwendungsgesichtspunkten ist das sicherlich nicht ausreichend, weil bei jeder Einwirkung einer nicht vorhergesehenen äußeren Störkraft das Ziel verfehlt werden würde, und zwar auch dann, wenn das im Kontroller repräsentierte inverse Modell in seiner Struktur nicht von der Inversen der physikalisch vorgegebenen Werkzeugtransformation abweicht. Denn vorausgesetzt, der
Kontroller arbeitet im predicted feedback Modus, dann hat die Störung eine Abweichung des vorhergesagten Systemzustands vom tatsächlichen Systemzustand zur
Folge, was die weitere Steuerbarkeit des Systems durch den jetzt fehlerhaft informierten Kontroller verschlechtert. Setzt der Kontroller dennoch seine Tätigkeit ohne
Korrekturen fort, so muß es zwangsläufig zu Abweichungen auch zwischen (übergeordneten) sensorischen Zielen und dem tatsächlich erreichten Bewegungsergebnis
kommen. Der Kontroller muß daher an die Realität 'angebunden' werden. Dies kann
einerseits dadurch geschehen, daß die vorgesagten Systemzustände (Geschwindigkeit und Beschleunigung) an die tatsächlich vorliegenden angeglichen werden, damit
die Kontrolle durch inverse Modellierung fortgesetzt werden kann. Andererseits kann
eine Nachbesserung der Bewegung selbst vorgesehen werden, wenn sich herausstellt, daß das Bewegungsergebnis mit dem Bewegungsziel nicht übereinstimmt.
Abb.4.15 zeigt zwei Möglichkeiten, wie dies durch Regelungsvorgänge (negative
38
feedback control), die sich entweder auf die vorhergesagten oder erreichten Systemzustände beziehen, im Prinzip erreicht werden kann.
Abbildung 4.15 : Einbettung der Steuerung über das inverse Modell S-1 in Regelkreise
Zur Vorhersage des Systemzustands werden wieder wie in Abb.4.14 zwei Integratoren benutzt, die jetzt jeweils einen weiteren Eingang haben, der mit dem ursprünglichen Eingang additiv zusammenwirkt. In diesen zweiten Eingang wird Differenz zwischen der momentan geltenden Vorhersage und dem betreffenden aktuellen Wert,
so wie er an der Peripherie propriozeptiv gemessen wird, eingegeben. Vor der Bildung dieser Differenzen wird die jeweils vorhergesagte Variable zeitlich verzögert,
was in Abb.4.15 durch ein kleines Quadrat mit einbeschriebenem ∆t angedeutet wird.
Diese Verzögerung dient dazu, ähnlich wie bei Erlernen der inversen Werkzeugtransformation durch Auto-Imitation, die relative Gleichzeitigkeit der durch die Differenzbildung verglichenen Signale sicherzustellen, also das zeitliche Nachlaufen der
peripheren Signale gegenüber den zugehörigen vorhergesagten Signalen auszugleichen. Die in den ersten Integrator zusätzlich eingegebene Größe ist
& ( t) = u ⋅ {ϕ& ( t ) − ϕ& z (t − ∆t)}. Es handelt sich also um einen proportionalen
u⋅ δ ϕ
Regler mit der Verstärkung u und einer integrierenden Regelstrecke, bei der die
& ( t) als Sollwert und die vorhergesagte
tatsächliche periphere Geschwindigkeit ϕ
Geschwindigkeit ϕ& z ( t ) als der zu regulierende Istwert aufgefaßt werden.
{
}
Entsprechend gilt für den zweiten Integrator v ⋅ δ ϕ( t) = v ⋅ ϕ( t) − ϕ z ( t − ∆t) . Hier
hat der Proportionalregler die Verstärkung v, während die aktuelle Position den
Sollwert und die vorherzusagende Position den Istwert darstellen.
Die Nachbesserung hinsichtlich der Winkelposition ist in dem gestrichelt umrandeten Kästchen veranschaulicht. Wie schon in Abb.4.14, wird zunächst das von links
ϕ z ( t ) vom inversen Modell S-1
herangeführte gewünschte Beschleunigungssignal &&
des Kontrollers in ein Drehmoment Qs(t) umgesetzt, welches nunmehr vor der Anwendung auf den Arm noch einem Eingang eines Addierer eingegeben wird. Die
Differenz d ϕ( t) = ϕ z ( t ) − ϕ( t ) wird, w-fach verstärkt und nun als Qr(t) bezeichnet,
dem anderen Eingang des Addierers zugeführt, dessen Ausgangssignal Q(t) dann
den Arm antreibt. ϕ z ( t) , ϕ( t) und d ϕ( t ) können also als Sollwert, Istwert und Regelabweichung aufgefaßt werden, die einen weiteren Regelkreis mit proportionalem
Regler konstituieren, in welchen die über das inverse Modell laufende Steuerung
eingebettet ist. In diesem Regelkreis hat, im Gegensatz zu den im vorigen Abschnitt
besprochenen beiden Regelkreisen, die vorhersagende Variable ϕ z ( t ) Sollwertcharakter, während die aktuelle periphere Größe ϕ( t) die zu regelnde Größe darstellt.
Die Regelstrecke ist in diesem Falle der physikalische Arm, welcher zweifach inte39
grierend ist. Dieser Regelkreis neigt damit zur Instabilität, wenn die Verstärkung w
zu groß wird. Ebenso wie die oben beschriebenen beiden, tritt auch er erst dann in
Aktion, wenn Störungen auftreten oder das inverse Modell nicht zutrifft, ansonsten
bleibt er unbeansprucht. De facto führt er eine neuronal erzeugte Federsteifigkeit mit
zeitlich variabler Gleichgewichtslage ein, wobei ϕ z ( t ) die zum Zeitpunkt t geltende
Gleichgewichtslage darstellt. D.h., nur dann, wenn sich die aktuelle Position von dieser Gleichgewichtslage entfernt, wird ein rücktreibendes Drehmoment erzeugt, welches die Abweichung zu verkleinern trachtet. Zur Unterdrückung von Schwingungen
kann dann ggf. auch noch eine zur aktuellen Geschwindigkeit proportionale Größe
mit negativem Vorzeichen auf den unteren Addierer geschaltet werden (in Abb.4.15
gepunktet eingezeichnet).
Vor dem Hintergrund der Abb.4.3 können ϕ z ( t ) auch als "Efferenzkopie im
weiteren Sinne", ϕ( t) als "Gesamtafferenz" und d ϕ( t ) als "Exafferenz" interpretiert
werden; mit dieser Bemerkung soll nochmals darauf hingewiesen werden, wie eng
Sensorik und Motorik zusammenhängen, wie wenig sachgerecht eine Trennung zwischen neuronalem Kontroller und kontrollierter Realität ist und wie physiologische
und systemtheoretische Ansätze letzten Endes zu einer einheitlichen Sichtweise
konvergieren.
4.2.2 Kontrolle der Zielbewegung eines zweigelenkigen Arms
Das eingelenkige Arm-Modell der Abb.4.5 soll nun um ein weiteres Gelenk erweitert
werden, wobei das ursprüngliche Gelenk (Gelenk 1) als Schultergelenk, das neue
Gelenk (Gelenk 2) als Ellbogengelenk aufgefaßt wird. Physikalisch handelt es sich
jetzt um ein Doppelpendel, von dem bekannt ist, daß es sich nur sehr schwer kontrollieren läßt. Der Grund dafür ist, daß sich die Beschreibung des Armverhaltens
mittels seiner Werkzeugtransformation - und dadurch natürlich auch die Kontrolle des
Arms - durch Hinzunahme eines zweiten Gelenks stark verkompliziert.
In Abb.4.16 wird eine Zielbewegung mit solch einem Arm veranschaulicht, der zur
Vereinfachung des Problems jedoch nur in einer Ebene beweglich sein soll. Die aktuelle Position P der Armspitze wird im Rahmen eines umgebungsbezogenen x-yKoordinatensystems beschrieben, welches als Cartesisch angenommen wird. Weiter
wird angenommen, daß das Individuum die Armspitze exterozeptiv - hier über das
visuelle System - erfaßt und in einem internen Koordinatensystem lokalisiert, welches
mit dem umgebungsbezogenen übereinstimmt. Die Armbewegungen selbst werden
durch Drehungen im Schultergelenk und im Ellbogengelenk ausgeführt. Die betreffenden Drehwinkel sind jedoch im Rahmen eines körperzentrierten Koordinatensystems festgelegt. Wiederum wird angenommen, daß sowohl die Gelenkwinkel als
auch die sie verstellenden Drehmomente propriozeptiv erfaßt werden und daß auch
40
hier die sensorischen mit den physikalischen Meßwerten übereinstimmen.
Abbildung 4.16 : Zweigelenkiger Arm
Die Abb.4.17 gibt zunächst einen groben Überblick über den Funktionskreis, der einer Zielbewegung mit diesem Arm unterlegt werden kann. Eine Zielbewegung beginnt damit, daß eine gewünschte Position Pz im Rahmen des visuellen Koordinatensystem festgelegt wird. Aufgabe der Motorik ist es dann, die Armspitze von der
aktuellen Position in die gewünschte Position zu überführen. Der motorische Apparat
hat also muskuläre Drehmomente um die beiden Gelenkwinkel so zu erzeugen, daß
die Armspitze in der gewünschten Weise versetzt wird.
Abbildung 4.17 : Vereinfachter Funktionskreis von Werkzeugtransformation und
ihrer Invertierung
Die 'Werkzeugtransformation' wird wieder mit F bezeichnet und ist jetzt definiert als
dasjenige Funktionselement, dessen Eingangsgröße der Vektor der muskulär erzeugten Drehmomente Q1 und Q2 um die Gelenke 1 und 2 ist und dessen Ausgangsgröße durch den Vektor des physikalischen Werkzeugeffekts repräsentiert
wird. Der Werkzeugeffekt wird hier durch die cartesische Position P=(x,y) der Armspitze nach dem Ende der Bewegung wiedergegeben; denkbar sind aber auch in
cartesischen Koordinaten ausgedrückte Geschwindigkeits- oder Beschleunigungsvektoren. Der neuronale Kontroller hat nun diejenigen muskulären Kräfte bereitzustellen, die das vorgegebene Ziel P z verwirklichen. Dazu muß er die Werkzeugfunktion in inverser Form widerspiegeln. Das ist durch das Funktionssymbol S-1 angedeutet. Der vermittels S-1 berechnete Drehmomentvektor (Q1, Q 2) wird dann dem
Armsystem eingeprägt und veranlaßt die Armbewegung, dh. wird über die Werkzeugtransformation F in den Werkzeugeffekt umgesetzt. Der rückwärts von F nach
S-1 verlaufende Pfeil deutet an, daß zu dieser Inversion eine Zustandsrückführung
erforderlich ist, welche hier die auf die beiden Gelenke bezogenen Winkelpositionen
und -geschwindigkeiten umfaßt. Die Doppelpfeile kennzeichnen wiederum zeitdiskrete (parallele), die dünnen zeitkontinuierliche (serielle) Arbeitsweise. Nach Bewegungsende können dann die gewünschte und die erreichte Position der Armspitze
verglichen werden und der Fehler dP, wenn ungleich Null, ggf. zu Korrekturzwecken
herangezogen werden.
41
4.2.2.1 Vorwärts-Kinematik und -Dynamik des zweigelenkigen Arms
Um die auftretenden Kontrollprobleme eingehender zu veranschaulichen, sei die
Werkzeugtransformation F des Arms zunächst in den kinematischen und den dynamischen Teil aufgespalten. In der Physik versteht man unter Kinematik die Beschreibung von Bewegungen mit Hilfe räumlicher Koordinaten und ihrer zeitlichen Ableitungen, also z.B. mit Hilfe von Größen wie Position, Geschwindigkeit und Beschleunigung (vgl. Pohl 1962 S.19). Bei mehrgliedrigen bewegten Körpern sind bei der Beschreibung der Einzelbewegungen und ihres Zusammenhangs insbesondere auch
die geometrischen Beziehungen zwischen den Teilen zu berücksichtigen. Von der
Kinematik zu unterscheiden ist die Dynamik, welche die Veränderungen der kinematischen Größen, welche das in Bewegung befindliche System beschreiben, unter der
Wirkung von Kräften zum Gegenstand hat. Der Hinweis sei gestattet, daß in den
Verhaltens- und Neurowissenschaften das Wort "dynamisch" zwar häufig benutzt,
ihm allerdings selten auch eine entsprechend präzise Bedeutung zugeordnet wird.
Wenn im folgenden die Bezeichnungen Kinematik und Dynamik benutzt werden, so
werden ihnen auschließlich die oben genannten physikalischen Bedeutungen unterlegt.
Bleiben wir zunächst bei der Kinematik des Arms. Die Beschreibung seiner Bewegungen kann sowohl in cartesischen Koordinaten der Armspitze als auch in Winkelkoordinaten der beiden Gelenkwinkel geschehen. Der Zusammenhang beider Beschreibungssysteme ergibt sich auf rein geometrischer Basis aus der vektoriellen
Addition der die Endpunkte von Ober- und Unterarm darstellenden Vektoren:
x = l1 sin ϕ 1 + l2 sin(ϕ1 + ϕ 2 )
y = l1 cos ϕ 1 + l2 cos(ϕ1 + ϕ 2 )
(4.12)
Die in diese Transformation eingehenden Variablen sind also die Winkelpositionen
hinsichtlich der beiden Gelenke, während die Ausgangsgröße die von diesen Winkeln
festgelegte cartesische Position (x,y) der Armspitze ist. Aus diesem Grunde sagt man
auch, daß die Gleichungen (4.12) die Vorwärtskinematik des Arms festlegen. Der
Teil der Werkzeugtransformation, welcher die Vorwärtskinematik beschreibt, soll im
folgenden mit F K bezeichnet werden, eine geeignete Modellierung mit SK, entsprechende inverse Modelle mit SK-1.
Unter der Dynamik - genauer: der Vorwärtsdynamik - des Arms sollen die Veränderungen der Winkelkoordinaten und ihrer zeitlichen Ableitungen unter dem
Einfluß von Kräften verstanden werden. Hierunter zählen nicht nur die von aktivierten
42
Muskeln und anderen Einflußgrößen ausgeübten "äußeren" Kräfte, also diejenigen
Kräfte bzw. Drehmomente, welche dem mechanischen Armsystem von außen eingeprägt werden, sondern es müssen auch die "inneren" Kräfte berücksichtigt werden.
Diese entstehen auch ohne Anwesenheit äußerer Kräfte allein dadurch, daß sich die
Bewegungen von Ober- und Unterarm gegenseitig beeinflussen. Z. B. wird durch
eine Drehung des Unterarms eine Zentrifugalkraft erzeugt, welche den Oberarm in
Richtung Unterarm wegzieht, während umgekehrt der Unterarm durch eine Drehung
des Oberarms eine Zentripetalkraft erfährt, welche den Unterarm in Richtung Oberarm treibt. Die Dynamik der Drehbewegungen des zweigelenkigen Arms um das
Schultergelenk (Gelenk 1) und das Ellbogengelenk (Gelenk 2) wird mathematisch
durch die folgenden beiden gekoppelten Differentialgleichungen beschrieben (vgl.
Kalveram 1991b):
&&1 + Cϕ
&& 2 − Dϕ& 22 − 2Dϕ& 1ϕ& 2 − E + R1ϕ& 1 + D1 (ϕ1 − ϕ 01) = Q1
Aϕ
&& 1 + Dϕ& 12
B&&
ϕ 2 + Cϕ
− F + R2ϕ& 2 + D 2 (ϕ 2 − ϕ02 ) = Q 2
(4.13)
Hierbei bedeuten:
ϕ 1, ϕ2 : Winkelpositionen von Gelenk 1 (Schulter) und Gelenk 2 (Ellbogen)
ϕ 01, ϕ 02 : mechanische Gleichgewichtslagen
M =Trägheitsmoment des Armsegments i, bezogen auf Gelenk i (i=1,2)
mi = Masse des Armsegments i
li = Länge des Armsegments i
ai = Abstand vom Gelenk i zum Schwerpunkt des Armsegments i
A
B
C
D
E
F
= M1 + M2 + m2l12 + l1a2m2 cos 2
=
M2
=
M2
+ l1a2m2 cos ϕ2
=
+ l1a2m2 sin ϕ2
= g(a1m1+l1m2).sin(ϕ1-ϕg) + g a2m2.sin (ϕ1+ϕ2-ϕg)
=
+ g a2m2.sin (ϕ1+ϕ2-ϕg)
Ri = Reibungskoeffizient (visköse Dämpfung),
Di = Federsteifigkeit,
g = 9.81 N/kg (Gravitationskonstante),
ϕg = Richtung der Schwerkraft mit Bezug auf den Körper
Qi = Drehmoment um Gelenk i (Kraft mal Kraftarm), ausgeübt vom Kontroller auf den
Arm.
(i=1, 2)
43
Diese gekoppelten Differentialgleichungen beschreiben also das dynamische Verhalten des Arms. Zu beachten ist, daß der Bewegungszustand des Systems 'Arm'
nunmehr durch die Winkelpositionen ϕ1, ϕ 2
und die Winkelgeschwindigkeiten
ϕ& 1, ϕ& 2 gegeben ist. Die oben erwähnten Wechselwirkungen zwischen den
Armsegmenten drücken sich dadurch aus, daß in der Gleichung für den Oberarm
(erste Zeile) die Winkelbeschleunigung und die Zustandsgrößen des Unterarms
(zweite Zeile) auftreten und umgekehrt: Der Koeffizient C kennzeichnet die beiden
Terme, welche den Kopplungen über die reaktiven Trägheitskräfte Rechnung tragen.
Die beiden Terme mit dem Koeffizienten D stellen Zentrifugal- bzw. Zentripetalkräfte
dar, der Term mit dem Koeffizienten 2D die Coriolis-Kraft, die auftritt, wenn eine
Drehbewegung mit Bezug auf ein ebenfalls sich drehendes Koordinatensystem
ausgedrückt wird. Die Terme E und F vermitteln Einflüsse und Kopplungen, die durch
die Schwerkraft entstehen. Die Terme mit den Koeffizienten R1, R2 und D1, D2
schließlich entsprechen den schon in Gleichung (4.1) eingeführten und dort mit R
und D bezeichneten Dämpfungs- und Federmomenten.
Der Teil der Werkzeugtransformation F, welcher die Vorwärtsdynamik beschreibt, soll im folgenden mit F D abgekürzt werden, eine geeignete Modellierung mit
SD, entsprechende inverse Modelle mit SD-1. Um die Vorwärtsdynamik des Arms im
ϕ 2 ) = FD (Q1, Q 2 ) ,
expliziter Darstellungsweise zu erhalten, z.B. in der Form (ϕ&&1, &&
müßte man die Gleichungen (4.13) formal nach den Beschleunigungen der beiden
Gelenkwinkel auflösen. Dieses ist jedoch für den allgemeinen Fall in geschlossener
Form so nicht zu erreichen, für die hier angestellte Analyse aber auch nicht erforderlich.
Die Abb.4.18 zeigt, wie man sich, ausgehend von der Bewegungskontrolle beim
eingelenkigen Arm (s. Abb.4.13) die neuronale Kontrolle einer Zielbewegung mit einem zweigelenkigen Arm vorstellen kann. Im unteren Teil der Abb.4.18 ist dargestellt, wie Vorwärtsdynamik FD und Vorwärtskinematik FK kombiniert werden können, um die komplette Werkzeugtransformation zu erhalten. Die neuronale Kontrolle
der Zielbewegung erfordert dann den Einsatz von inversen Modellen dieser Werkzeug-Teiltransformationen. Wie dies im Prinzip gemacht werden kann, ist im oberen
Teil der Abb.4.18 zu erkennen:
Abbildung 4.18 : Zweigelenkiger Arm und seine Kontrolle
Sobald die gewünschte cartesische Zielposition Pz=(xz, y z) der Armspitze vorgegeben ist, hat der Organismus das Problem, solche Muskelkräfte bzw. Drehmomente
Q1, Q2 zu finden, welche die Gelenkwinkel so verstellen, daß nach Ablauf der Bewegungsdauer T die gewünschte Position der Armspitze verwirklicht ist, d.h. die Be44
ziehungen x=x z und y=y z gelten. Hierzu werden die gewünschten cartesischen Zielkoordinaten zunächst in das Modul 'Inverse Kinematik' (SK-1) eingegeben, welches
die zugehörigen Zielwinkel ϕ1z, ϕ 2z bestimmt. Durch Subtraktion der Winkel-Ausgangspositionen ϕ1( 0), ϕ 2 (0 ) erhält man daraus die Ziel-Diskrepanzen δϕ1, δϕ 2 ,
welche ensprechend (4.9) in die beiden Beschleunigungsmuster-Generatoren CPG1
und CPG2 eingegeben werden. Nach Wahl der Periodenlänge T emittieren diese die
&&1z ( t ) und ϕ
&&2z ( t ) . Ab dieser Stelle beginnt
gewünschten Beschleunigungsmuster ϕ
die serielle (zeitkontinuierliche) Verarbeitung. Die gewünschten Beschleunigungen
bilden den Input für das Modul mit der Bezeichnung 'Inverse Dynamik' (S D-1). Dieses
Modul wiederum ermittelt daraus unter Zuhilfenahme der rückgeführten aktuellen
& 1, ϕ& 2 die muskulären Drehmomente Q1, Q 2 , die
Zustandsvariablen ϕ1, ϕ 2 und ϕ
auf den Arm einwirken und von der Vorwärts-Dynamik zunächst in die aktuellen
&&1, ϕ
&& 2 umgesetzt werden. Bei fehlerfreier Arbeitsweise
Winkelbeschleunigungen ϕ
&&1 = &&
&& 2 = &&
ϕ 1z , ϕ
ϕ 2 z . Auf physikalischem Wege ein- bzw.
der inversen Dynamik gilt ϕ
zweimalig integriert ergeben sich aus den Beschleunigungen die zugehörigen
aktuellen Winkelgeschwindigkeiten ϕ& 1, ϕ& 2 bzw. Winkelpositionen ϕ 1, ϕ 2 , also der
Zustand des Armsystems, ausgedrückt in körperzentrierten Koordinaten, von denen
hier angenommen wird, daß sie mit den propriozeptiv ermittelten Werten
übereinstimmen. Auf die Darstellung der Möglichkeit, die Zustandgrößen aus dem
output der Mustergeneratoren vorherzusagen, wurde hier aus Gründen der
Übersichtlichkeit verzichtet.
Der Funktionsblock mit der Bezeichnung 'physikalische und sensorische Integration'
führt eine Serien-Parallel-Wandlung durch. De facto bedeutet das hier, daß aus der
zeitlichen Abfolge der Winkelwerte die Anfangspositionen ϕ 1(0 ), ϕ2 (0 ) und Endpositionen ϕ 1( T ), ϕ 2 ( T ) herausgefiltert und für eine zeitdiskrete Verarbeitung zur Verfügung gestellt werden. Die Serien-Parallel-Wandlung reduziert also den Bewegungsverlauf wieder auf die Anfangs- und Endpunkte der Bewegung. Die Vorwärts-Kinematik transformiert sodann die so erhaltenen Winkel in die aktuelle Position P=(x,y)
der Armspitze. Die Anfangspositionen der Gelenkwinkel werden, wie schon schon
beim eingelenkigen Arm beschrieben, zur Berechnung der Zielddiskrepanzen benutzt, die Endpositionen können nach Subtraktion von den Zielwinkeln Fehlerwerte d
ϕ 1 und dϕ 2 liefern, die entsprechend Abb.4.13 zur Adjustierung der Parameter p 1
und p2 des amplitudenbestimmenden Netzwerkes herangezogen werden können,
welches den Mustergeneratoren vorgeschaltet ist. Weggelassen in Abb.4.17 ist der
Vergleich der Cartesischen Ziel- und Endpositionen zur Ermittlung von Fehlerwerten
dx=xz-x(T), dy=y z-y(T), die ggf. für weitere Parameteradjustierungen benutzt werden
können.
45
4.2.2.2 Reflexanaloge Verarbeitung und inverse Dynamik des zweigelenkigen Arms
Bei fehlerfreier Arbeitsweise der inversen Dynamik gelten die Beziehungen
&&1 = ϕ
&&1z , ϕ
&& 2 = ϕ
&& 2 z . Bezogen auf die Differentialgleichung (4.13), welche die Physik
ϕ
des zweigelenkigen Arms beschreibt, bedeutet dies, daß die muskulären Drehmomente Q1, Q2 so bestimmt werden müssen, daß in jedem Moment alle Terme auf
der linken Seite - mit Ausnahme der mit A und B beginnenden - genau kompensiert
werden. Ähnlich wie beim eingelenkigen Arm (s. 4.4), kann man also auch hier den
Ansatz
Q1( t ) = Q1M ( t ) + Q1K ( t)
Q 2 ( t) = Q 2M ( t) + Q 2K ( t )
machen, wobei
&& 1z ( t) = Q1M ( t )
M'1 ⋅ ϕ
&& 2 z ( t ) = Q 2M ( t)
M'2 ⋅ϕ
(4.14)
die auf den Mustergenerator zurückgehenden Drehmomente zur Überwindung der
Trägheitsmomente von Ober- und Unterarm bedeuten. Gelingt es also, die kompensierenden Drehmomente Q 1K, Q2K im Rahmen der inversen Dynamik hinreichend
genau einzustellen, so sind aus der Sicht der beiden Mustergeneratoren (CPG1 und
CPG2) weder Schwerkraft-, Dämpfungs- und Federkräfte zu berücksichtigen, noch
auch Wechselwirkungen zwischen den Gliedmaßen. Bei richtiger Einstellung auch
der Trägheitsmomente der beiden Armsegmente können diese dann von den Mustergeneratoren angesteuert werden, als ob sie unabhängig voneinander wären und
auch keine Trägheitskräfte auf sie wirken würden.
Abbildung 4.19 Analog-Schaltbild der Kontrolle einer Zielbewegung mit dem
zweigelenkigen Arm. (Modifiziert nach Kalveram 1991b)
Wie die on-line erfolgenden Berechnungen und Verrechnungen der Signale hierfür
aussehen müssen, ist in Abb.4.19 dargelegt. Die mit "+" gekenzeichneten ovalen
Summiereinheiten erzeugen die muskulären Drehmomente Q1 und Q2, also den
Motor-Output. An den Außenseiten links und rechts ist jeweils die Kompensation für
die mechanische Dämpfung und die mechanische Federkraft zu erkennen. Zwischen
den Summiereinheiten ist die Verschaltung angeordnet, welche die Rückwirkungen
eines Gelenks auf das jeweils andere kompensieren. Die Berechnung der
Koeffizienten A-F, die gemäß (4.13) von den Winkelpositionen der Armsegmente
abhängen, geschieht in der unteren mit GC-Netzwerk bezeichneten Einheit.
46
4.2.2.3 Erlernen der inversen Dynamik durch Auto-Imitation
Es liegt nahe, die Werkzeugtransformation, insofern als sie als Hintereinanderschaltung von Vorwärtskinematik und Vorwärtsdynamik angesetzt ist, entsprechend auch
in zwei Schritten zu invertieren. Als erste Teiltransformation muß dann die inverse
Dynamik erworben werden. Dieses kann, wie bereits in Abb.4.4a angedeutet wurde,
mittels Auto-Imitation geschehen. Das Blockdiagramm in Abb.4.20 zeigt, wie dieser
Lernalgorithmus hier im Prinzip anzusetzen ist. In der Lernphase befinden sich die
Schalter in Stellung 1.
Abbildung 4.20 : Erwerb der inversen Dynamik des zweigelenkigen Arms.
Die vom blinden Lehrer erzeugten Drehmomente Q'1und Q'2 treiben einerseits den
Arm zu irgendwelchen Bewegungen an und werden andererseits dem Lern-Eingang
des neuronalen Kontrollers zugeführt (gestrichelte Pfeile). Die an den beiden Gelenken abgenommenen aktuellen Werte für die Winkelbeschleunigung, -geschwindigkeit
und -position gelangen in den Normal-Eingang des Kontrollers. Die Geschwindigkeits- und Positionswerte dienen dabei der Zustandsrückführung, welche sowohl in
der Lern- als auch der späteren Aktivitätsphase erforderlich ist, während die aktuellen
Beschleunigungswerte später durch die Zielbeschleunigungen ersetzt werden. Die
von oben herangeführte Variable ϕ g symbolisiert wechselnde Winkel mit der
Schwerkraftrichtung während des Lernens. Da die Beziehung zwischen den
Drehmomenten um die Gelenkwinkel und den erzeugten Winkelbeschleunigungen
nicht umkehrbar eindeutig ist, kann bei der Berechnung der inversen Dynamik auf die
Zustandsrückführung und die Orientierung zur Schwerkraftrichtung nicht verzichtet
werden. War der Lernvorgang erfolgreich, so können die Schalter in die Stellung 2
gebracht werden. Der Kontroller ist dann in der Lage, zu beliebigen
Zielbeschleunigungen Drehmomente so zu finden, daß die tatsächlichen
Beschleunigungen gleich den gewünschten sind und der Arm auch bei
Veränderungen der Orientierung des Körpers zur Schwerkraftrichtung automatisch
im Gleichgewicht gehalten wird. Hierbei wird angenommen, daß sowohl in der
Lernphase als auch in der anschließenden Aktivitätsphase hinsichtlich der relevanten
Signale relative Gleichzeitigkeit herrscht, also Verzögerungen der peripheren
Meldungen zu vernachlässigen sind. Ist dies nicht der Fall, so muß, ähnlich wie
schon beim eingelenkigen Arm ausgeführt wurde, in der Lernphase das Motorsignal
des blinden Lehrers vor Eingabe in den Lerneingang verzögert werden und in der
Aktivitätsphase auf predicted feedback der Zustandsgrößen des Arms
zurückgegriffen werden.
Der neuronale Kontroller muß, sollen die Bewegungen hinreichend genau sein,
die inverse Dynamik sehr präzise repräsentieren. Backpropagation Netzwerke sind
47
dazu jedoch nicht in der Lage, wohl aber das bereits erwähnte Potenzierungsnetzwerk (Power Network; Kalveram 1993). Dieses ist ein dreilagiges feedforward Netzwerk mit festen synaptischen Gewichten in der hidden layer und plastischen Gewichten in der output layer. Wenn q die Anzahl der Neurone in der Eingangschicht
bedeutet und p eine weitere natürliche Zahl ist, so berechnet jeder Knoten i
(i=1,2,...,N) in der hidden layer einen Ausdruck der Form
yi = x1r ⋅ xs2 ⋅.... ⋅ xqt
(r, s, t: natürliche Zahlen mit r+s+t≤p) ,
wobei die xl (l=1,2,...,q) die von den q Eingangsneuronen gelieferten Werte und yi
den output des Knotens i bedeuten. Die Knoten der Zwischenschicht berechnen
also die Produkte aus potenzierten Eingangsvariablen. In der Terminologie der
Abb.1.5 handelt es sich bei diesen Knoten daher um Multiplizier-Einheiten, bei denen
die synaptischen Gewichte als Exponenten interpretiert werden. Der output z j des
output Neurons j (j=1,2,...,k) ist dann definiert als
N
zj =
∑ wi j ⋅ yi
, (j=1,2,...,k) ,
i=1
wobei die wij die synaptischen Gewichte der k Neuronen der output layer repräsentieren. Diese Neuronen berechnen also die gewichtete Summe der Produkte, welche
von der hidden layer angeliefert werden. Dieser Netzwerktyp repräsentiert damit k
Potenzreihen der Dimension q und der Ordnung p, bei denen die synaptischen Gewichte w ij als Koeffizienten als interpretiert werden. Der Lernvorgang beschränkt sich
dann auf die Bestimmung dieser Koeffizienten.
Abbildung 4.21 : Potenzierungsnetzwerk, die inverse Dynamik des
zweigelenkigen Arms repräsentierend.
Die Abb.4.21 zeigt ein Beispiel für ein solches Potenzierungsnetzwerk. Es berechnet
die inverse Dynamik des zweigelenkigen Arms. Die Sinus- und Cosinus-Funktionen
sind dabei zu Teilnetzwerken zusammengefaßt, welche man aber ebenfalls als Potenzreihen darstellen kann. Wie schon in der Abb.4.8 angedeutet, reicht es hierzu,
die Reihen jeweils nach drei Gliedern abzubrechen, für den Sinus also nach der 5.
Potenz und für den Cosinus nach der 4. Potenz. Im Prinzip können die Knoten für die
trigonometrischen Funktionen natürlich ebenfalls noch in die Zwischenschicht eingearbeitet werden, wodurch sich jeder Knoten, der eine solche Funktion beansprucht, in
drei Knoten aufsplittert.
48
Zur Bestimmung der synaptischen Gewichte der Neuronen der output layer
muß wiederum eine simultane Lernregel herangezogen werden, ähnlich wie dies
schon beim eingelenkigen Arm mittels eines überbestimmtes inhomogenes
Gleichungsystem nach Art von (4.11) oder mittels eines Relaxationsverfahrens nach
Art von (4.13) und Abb.4.11 geschah. Wie in Computersimulationen gezeigt wurde,
kann das geschilderte Verfahren die Parameter des mechanischen Systems sehr
genau identifizieren, wenn die relative Gleichzeitigkeit der zu verarbeitenden Signale
gewährleistet ist und die Signale selbst frei von Meßfehlern sind. Für nähere
Einzelheiten muß jedoch hier auf Kalveram (1991b und 1993b) verwiesen werden.
4.2.2.4 Erlernen der inversen Kinematik durch Auto-Imitation.
Nach der Etablierung der inversen Dynamik kann das Erlernen der inversen Kinematik in Angriff genommen werden. Das kann wiederum im Rahmen eines Auto-Imitations-Algorithmus stattfinden, wie in Abb.4.22 angedeutet wird:
Abbildung 4.22 : Erwerb der inversen Kinematik des zweigelenkigen Arms
In der Lernphase sind, ähnlich wie in Abb.4.20, die Schalter in Stellung 1. Der blinde
Lehrer gibt diesmal willkürlich Winkelpositionen ϕ'1 und ϕ'2 vor, welche einerseits
in den Lerneingang des neuronalen Kontrollers gelangen, andererseits von der inversen Dynamik als Zielwinkel aufgefaßt und über die entsprechende Ansteuerung
der Mustergeneratoren CPG1 und CPG2 (s. Abb.4.18) verwirklicht werden. Dieser
Verarbeitungsschritt ist in Abb.4.22 jedoch nicht eigens veranschaulicht. Die Vorwärtskinematik setzt die aktuell erzeugten Winkel dann in die zugehörigen aktuellen
cartesischen Koordinaten x, y der Armspitze um, welche, visuell rückgemeldet, dem
Normaleingang des Kontrollers zugeführt werden. Beim zweigelenkigen Arm ist die
Beziehung zwischen den Gelenkwinkeln und den cartesischen Koordinaten der Armspitze umkehrbar eindeutig, so daß weitere Eingangsvariablen zur Invertierung der
Kinematik hier nicht benötigt werden. Den Kontroller denke man sich wieder repräsentiert durch ein Potenzierungsnetzwerk, das mit Hilfe einer simultanen Lernregel
ähnlich wie oben trainiert wird. Schon mit 16 Knoten in der hidden layer erhält man
auf diese Weise eine sehr genaue Annäherung an die inverse Kinematik (Kalveram
1993a).
4.2.2.5 Einbettung der Steuerung durch inverse Modellierung in Regelkreise
Auch beim zweigelenkigen Arm muß die Steuerung durch die inverse Modellierung
der Werkzeugtransformation durch Regelungsvorgänge ergänzt werden, um die
49
Steuerungsprozesse an die Wirklichkeit anzubinden. Nimmt man an, daß das Model
der inversen Dynamik richtig angelegt ist, so können dieselben Regelkreise hinzugefügt werden, die bereits beim eingelenkigen Arm vorgeschlagen worden waren (s.
Abb.4.15), nur muß jeder der dort eingezeichneten drei Regelkreise jetzt zweimal
angesetzt werden, und zwar sowohl für das Schultergelenk hinsichtlich
ϕ& 1z ( t ), ϕ1z ( t ) und ϕ1( t ) als auch für das Ellbogengelenk hinsichtlich
ϕ& 2z ( t), ϕ2z ( t) und ϕ 2 ( t) .
4.2.3 Kontrolle der Zielbewegung eines dreigelenkigen Arms
Die Erweiterung des zweigelenkigen Armmodells der Abb.4.16 um ein drittes Gelenk
- z.B. ein Handgelenk - bringt gegenüber dem zweigelenkigen Arm weitere Komplikationen, weil auch die umkehrbare Eindeutigkeit der Vorwärtskinematik noch verlorengeht. Dh. dieselbe cartesische Position der Armspitze kann nunmehr durch verschiedene Kombinationen der drei Gelenkwinkel realisiert werden. Dies verhindert
zunächst einmal die Invertierung der Vorwärtskinematik.
Abbildung 4.23 : Dreigelenkiger Arm
Bei der Dynamikkontrolle hingegen treten keine prinzipiell neuen Probleme auf, wenn
man einmal davon absieht, daß nunmehr drei gekoppelte Differentialgleichungen erforderlich sind, um die physikalischen Vorgänge zu beschreiben, und daß die Anzahl
der Möglichkeiten für Wechselwirkungen zwischen den einzelnen Armsegmenten
erheblich zunehmen: Entsprechend zusammengefaßt, treten in jeder dieser Differentialgleichungen etwa 15 Terme nach Art von (4.13) auf. Im Prinzip aber kann zur Invertierung der Dynamik wieder die Auto-Imitation mit entsprechender Zustandsrückführung herangezogen werden. Wie Simulationsexperimente gezeigt haben (Kalveram & Natke 1996), kann ein Modell der inversen Dynamik auf diese Weise tatsächlich erstellt werden, nach dessen Etablierung die Armsegmente - wie schon im zweigelenkigen Fall - angesteuert werden können, als ob sie trägheitslos und unabhängig
voneinander wären, weil die Interaktionsmomente kompensiert werden. Auf die eingehendere Behandlung der Dynamik des dreigelenkigen Arms und ihrer Invertierung
soll daher verzichtet werden.
4.2.3.1 Das Problem der redundanten Vorwärtskinematik
Die Vorwärts-Kinematik des dreigelenkigen Arms der Abb.4.23 wird durch die folgenden beiden Formeln dargestellt:
50
x = l1 sin ϕ1 + l2 sin(ϕ1 + ϕ2 ) + l3 sin(ϕ1 + ϕ 2 + ϕ3 )
y = l1 cos ϕ1 + l2 cos(ϕ1 + ϕ2 ) + l3 cos(ϕ1 + ϕ 2 + ϕ 3 )
(4.15)
Hier tritt ein Problem in den Vordergrund, welches uns - wenngleich in weniger auffälliger Weise - bereits beim eingelenkigen Arm begegnet ist, nämlich das Redundanzproblem: Beim eingelenkigen (und natürlich auch beim zweigelenkigen) Arm
besteht es darin, daß nach (4.9) Amplitude und Periodenlänge der emittierten ZielBeschleunigung sich gegenseitig vertreten können, so daß bei jeder Bewegung
vorab entschieden werden muß, welche Periodendauer z.B. zugrunde zu legen ist.
Eine weitere Redundanz ist durch die Formgebung des Beschleunigungsmusters
gegeben: Unendlich viele verschiedene Muster nämlich führen über entsprechend
viele verschiedene Bewegungen zum gleichen Ziel, wenn nur die Impulsbedingung
(4.5) erfüllt ist. Beim dreigelenkigen Arm schließlich kann dieselbe cartesische Position der Armspitze durch unendlich viele verschiedene Kombinationen der drei Gelenkwinkel erzeugt werden. Bei jeder Zielbewegung muß daher eine Entscheidung
darüber getroffen werden, welche dieser Kombinationen realisiert werden soll. Die
folgenden Ausführungen sollen am Beispiel des dreigelenkigen Arms zeigen, wie
man sich das Zustandekommen dieser Entscheidungen vorstellen kann.
In der Literatur sind diese Redundanz-Phänomene allgemein unter der Bezeichnung "Motorvariabilität bei Zielinvarianz" bekannt. Hiermit wird die allgemein
bekannte Beobachtung umschrieben, daß bei Bewegungen zum selben Ziel diese
von Wiederholung zu Wiederholung unterschiedlich ausfallen, ohne daß die Zielgenauigkeit sich verändert. In den folgenden Ausführungen soll unter anderem gezeigt
werden, daß dieses Phänomen mit einem anderen in Zusammenhang steht, nämlich
damit, daß Bewegungen im Übungsverlauf optimiert werden können, z.B. im Hinblick
auf minimalen Energieaufwand, minimales Rucken, möglichst gerade Bahn der Armspitze, maximale Bequemlichkeit der Endstellung der Gliedmaßen usw..
Die Variabilität von Bewegungen ist eine notwendige Voraussetzung für deren Optimierung!
4.2.3.2 Redundanzerzeugung beim dreigelenkigen Arm
Für den dreigelenkigen Arm ergibt sich nach Auswahl eines exterozeptischen Bewegungsziels xz, yz die Notwendigkeit, entsprechend dem anzuwendenden Kriterium
die erforderlichen Drehungen auf die drei Gelenkwinkel nach einer geeigneten Regel
zu verteilen. ϕ 3=2.ϕ 2,, ϕ 3=1 oder ϕ 1+ ϕ 2=ϕ 3 sind Beispiele für Regeln, welche zu
einer solchen Redundanzerzeugung herangezogen werden können. Wie kann man
51
sich einen entsprechenden Generator und seine Programmierung vorstellen?
Abbildung 4.24 : redundanzerzeugende inverse Kinematik
Zur Beantwortung dieser Frage soll von der Abb.4.24 ausgegangen werden. Hier
wird zunächst angenommen, daß die inverse Dynamik bereits gelernt wurde. Oben in
Abb.4.24 wird zunächst die gewünschte cartesische Position xz, y z in den gestrichelt
umrandeten Block eingegeben, welcher die globale Bezeichnung 'Inverse Kinematik'
trägt. Im Gegensatz zu Abb.4.18 ist dieser Block jedoch in zwei Untereinheiten aufgespalten, welche die Bezeichnungen 'nicht-redundante inverse Kinematik' und 'Redundanzgenerator' tragen. Die nicht-redundante inverse Kinematik bezieht sich auf
eine Kinematik, bei welcher keine Mehrdeutigkeit zwischen Eingangs- und Ausgangsvariablen besteht. Dies wird dadurch erreicht, daß die Zahl der ausgegebenen
Winkel auf zwei eingeschränkt wird, welche mit β 1 und β 2 bezeichnet sind und die
einem fiktiven zweigelenkigen Arm zugeordnet sind.
Beispielsweise können β 1 und β 2 - bei konstant gehaltenem Handgelenkwinkel - als
Schulter- und Ellbogengelenkwinkel interpretiert werden, wobei die Fingerspitze auf
die entsprechende cartesische Position zeigt. Ändert sich der Handgelenkwinkel, so
ändern sich auch die beiden Winkel β 1 und β 2, dh. es kommt eine andere Formel für
die nicht-redundante Vorwärtskinematik zu Anwendung. β 1 und β 2 werden in den
Redundanzgenerator gegeben, welcher daraus die drei Zielwinkel ϕ1z, ϕ2z, ϕ3z
nach der Formel
 ϕ1z   c11 c12 
  
  ß1
 ϕ 2 z  =  c 21 c22  ∗  ß 
  
  2
 ϕ 3 z   c 31 c32 
mit
C = {cij} .
(4.16)
bestimmt. Die Matrix C wird im weiteren als "Koordinationsmatrix" bezeichnet, ihre
Elemente c ij (i=1,2; j=1,2,3) als "Koordinationskoeffizienten". Eine Transformation
gem. (4.16) könnte, wenn ein Wechsel der Koordinationskoeffizienten nicht erforderlich ist, von einem zweischichtigen feedforward Netz durchgeführt werden, in welchem die cij die synaptischen Gewichte von drei Ausgangsneuronen darstellen. Ein
sehr einfacher Satz von Koeffizienten wäre z.B. c11=c21=1, c12=c22=c31=0, c32=c,
welche zu den Zielwinkeln ϕ1z=ß1, ϕ2z=ß2 und ϕ3z=c.ϕ2z führen. Es ist aber auch
denkbar, daß die Koordinationskoeffizienten über absteigende Bahnen in die Modellierung der inversen Kinematik eingeschleust werden, was eine schnelle Anpassung
der Bewegungsausführung an wechselnde Anforderungen ermöglichen würde. Die
52
Koordinationskoeffizienten werden nicht nur dem Redundanzgenerator zur Verfügung gestellt, sondern auch in die Modellierung der nicht-redundanten inversen Kinematik eingegeben, wo sie dazu dienen, dasjenige Modell der inversen Kinematik
zu selegieren und zu aktivieren, welches der vom Redundanzgenerator momentan
angewendeten Formel entspricht. Der Redundanzgenerator erzeugt also eine spezifische Abhängigkeit zwischen den drei Gelenkwinkeln, welche durch den zur Anwendung gekommenen Koeffizientensatz c ij gekennzeichnet wird, während der vorgeschaltete Block die dazu passende inverse Kinematik bereitstellt. In diesem Sinne
kann man sagen, daß diese Koeffizienten eine bestimmte 'koordinative Struktur' repräsentieren, welche von anderen Ursachen für eventuelle Abhängigkeiten zwischen
den Gelenkwinkeln, z.B. den physikalisch bedingten Interaktionen, unterschieden
werden kann. Die weitere Verarbeitung der vom Redundanzgenerator ausgegegenen
Zielwinkel geschieht analog zum zweigelenkigen Arm (vgl. Abb.4.13) und bedarf daher keiner weiteren Erläuterung mehr.
4.2.3.3 Erlernen der Kontrolle redundanter Freiheitsgrade durch Auto-Imitation
Das Problem bei der Anwendung der Redundanzerzeugung nach Formel (4.16) ist,
daß jede Regel das Bereitstellen einer genau darauf abgestimmten nicht-redundanten inversen Kinematik erfordert. Wie können solche inversen Kinematiken gelernt
werden? Die Antwort soll anhand der Abb.4.25 gegeben werden, in welcher der entsprechende Lernvorgang skizziert ist.
Abbildung 4.25 : Lernen des passenden inversen Modells bei redundanter Vorwärtskinematik
Wie immer beim auto-imitativen Lernen, gibt der blinde Lehrer willkürliche Bewegungskommandos ab, die einerseits dem Lerneingang der zu trainierenden Einheit
zugeführt werden, andererseits den betreffenden Bewegungsapparat zu Bewegungen anregen, deren sensorisch erfaßte Wirkungen in den Normaleingang der zu trainierenden Einheit gegeben werden. In diesem Falle bestehen die Bewegungskommandos aus den (fiktiven) Gelenkwinkeln β'1, β'2, aus denen der Redundanzgenerator unter Anwendung der momentan aktuellen Koordinationsmatrix C die drei Zielwinkel ϕ1z, ϕ2z, ϕ3z erzeugt. Gleichzeitig werden die Koordinationskoeffizienten cij
der Matrix C auch der zu trainierenden Einheit an zusätzlichen Normaleingängen zur
Verfügung gestellt. Die cij erhalten so den Charakter von Zustandsvariablen, welche
nach dem Lernen jenes Modell der inversen Kinematik adressieren, welches exakt
der vom Redundanzgenerator jeweils angewendeten Formel zur Berechnung der
Zielwinkel entspricht.
53
4.2.3.4
Ein Simulationsexperiment zur Invertierung einer redundanten Vorwärtskinematik
In einem Simulationsexperiment (Kalveram & Natke 1996) wurde die durch (4.15)
gegebene Vorwärtkinematik zu Grunde gelegt. Die Längen der drei Armsegmente
wurden gleich 1 gesetzt. Die Beschleunigungsmuster-Generatoren CPG1, CPG 2 und
CPG3 wurden, ebenso wie die inverse Dynamik, als bereits etabliert angenommen.
Zur Implementation des Modells der nicht-redundanten inversen Kinematik wurde
wieder das Potenzierungsnetzwerk (Kalveram 1993a) benutzt, als simultane Lernregel die ebenda beschriebene LSQ-Regel. Trainiert wurde das Netz im Rahmen des
Auto-Imitations-Algorithmus der Abb.4.25. Für die vom Redundanzgenerator angewendete Formel gem. (4.16) wurden die Koordinationskoeffizienten zu c11=c21=1,
c12=c22=c31=0, c32=c (0<c<1) gewählt, was zu den Zielwinkeln ϕ1z=ß1, ϕ2z=ß2
und ϕ3z=c.ϕ2z führte. Dieses sehr einfache Koordinationsmodell hat also nur einen
Parameter, nämlich c, was aber zur Demonstration der Richtigkeit der Überlegungen
ausreicht.
Eingangsvariable des Netzwerks waren die cartesischen Positionen x und y der
Armspitze sowie die Größe c, Ausgangsvariable die beiden fiktiven Gelenkwinkel β 1
und β 2. In der Lernphase wurde pro Schritt zunächst ein Zufallswert für c, gleichverteilt im Intervall [0,1], gewählt. Sodann wurde ein Paar von fiktiven Winkeln β'1, β'2
erzeugt, welche in den Lerneingang des Netzwerks gegeben wurden. Dieselben
Winkel wurden vom Redundanzgenerator mittels der Formel (4.16) in die Zielwinkel
ϕ1z, ϕ2z, ϕ3z umgerechnet und über die Vorwärtskinematik (4.15) die zugehörige
cartesische Position x, y bestimmt. x und y wurden dann zusammen mit dem gewählten Wert für c in den Normal-Eingang des Netzwerkes gegeben. Die Zwischenschicht des Netzwerks bestand aus 26 Knoten, welche den Ausdrücken x, y, c, xy,
yc, xc, x2, y 2, c2, xyc, x2y, ..., x2y2c2 entsprachen. Bei zwei Ausgangs-Neuronen
sind dann die insgesamt 2.26=52 Koeffizienten dieser Ausdrücke, interpretiert als
Synapsenstärken der Ausgangsneuronen, zu bestimmen.
Die dazu verwendete LSQ-Regel ist eine simultane Lernregel, welche erfordert,
daß ein ganzer Block von Trainingsvektoren gleichzeitig zur Verfügung steht. Im vorliegenden Fall bestand ein solcher Trainingsvektor aus den beiden zufällig ausgewählten fiktiven Gelenkwinkeln β'1, β'2, dem Zufallswert für c und der daraus resultierenden Position x,y der Armspitze. Um den ausnutzbaren Variationsbereich für die
die Armspitze möglichst groß zu machen, ohne daß die Zahl der Trainingsvektoren
dabei ins Uferlose wuchs, wurde im Bereich 0,5≤x≤2 und -2,5≤y≤-0,5 ein Trainingsgitter von 10 mal 10 Punkten in der x-y-Ebene festgelegt. Jedoch nur dann, wenn für
ein Tripel β'1, β'2, c die zugehörigen Werte für x und y um weniger als 0,1 von einem dieser Gitterpunkte abwich, wurde der betreffende Trainingsvektor beibehalten.
54
Auf diese Weise wurden aus einer großen Zahl von potentiellen Trainingsvektoren
100 ausgewählt, welche auf die in Abb.4.26a eingezeichneten Positionen wiesen.
Mitttels dieser 100 Vektoren wurden dann die Synapsenstärken berechnet.
Abbildung 4.26 : Simulationsexperiment zum Erlernen einer
redundanten Kinematik des dreigelenkigen Arms.
Um die Güte der so bestimmten Modellierung der inversen Kinematik zu demonstrieren, wurde ein Testgitter von 21 mal 21 cartesischen Zielpunkten definiert, welche mit
Ausnahme der vier Eckpunkte an keiner Stelle mit den Gitterpunkten des
Trainingsgitters übereinstimmten. Unter Anwendung des vorher gelernten Modells
der inversen Kinematik wurden nun für c=0, c=0,5 und c=1 Punkte des Testgitters als
Ziele eingegeben und mit den tatsächlich getroffenen Positionen verglichen. Die
Abb.4.26 b1-b3 zeigen, daß die Fehler ziemlich klein sind, was bedeutet, daß das
erworbene Modell recht gut ist. Nur in der Ecke x=0,5, y=-0,5) ist der Fehler relativ
groß, besonders für c=0. Der Grund hierfür ist, daß diese Ecke bei gestrecktem
Handgelenk nur bei sehr großem Ellbogengelenkwinkel (nahe an π) erreicht werden
kann. Man kann vermuten, daß für solche Fälle die Approximation des inversen
Modell bei den im Netzwerk vorgegebenen höchsten Potenzen nicht genau sein
kann. Mehr Terme mit höheren Potenzen sollten daher eine bessere Genauigkeit
bringen.
4.2.3.5 Bewegungsoptimierung und motorische Variabilität bei Zielinvarianz
Die beschriebene Kontrolle von Bewegungen mit redundanten Freiheitsgraden impliziert auch eine Möglichkeit für die eingangs schon erwähnte Bewegungsoptimierung.
Hierzu kann ein sog. Evolutionsalgorithmus angesetzt werden. Voraussetzung dafür
ist, daß ein Optimierungskriterium gegeben ist und für eine durchgeführte Bewegung
an Hand dieses Kriteriums angegeben werden kann, ob man sich verbessert oder
verschlechtert hat. Dann können die zur Anwendung kommenden Koordinationskoeffizienten vor der Ausführung einer neuen Zielbewegung einer Zufallsvariation
unterworfen werden. Diese bewirkt, daß die Bewegungen zwar alle unterschiedlich
sind, aber dennoch - eben wegen der speziellen Art der Redundanzerzeugung - alle
ihr Ziel erreichen. Ergibt sich dabei eine Annäherung an das Optimum, so müssen
nun die Koeffizienten, die zu dieser Verbesserung geführt haben, die vorigen Koeffizienten ersetzen. Auf diese Weise sollte es möglich sein, für einen bestimmten
Zweck im Laufe vieler Wiederholungen eine Koordinationsmatrix mit optimierten Eigenschaften zu finden.
Abbildung 4.27 : Feedforward Netzwerk zur Optimierung von Koordinationskoeffizienten
55
Die Abb.4.27 zeigt eine Möglichkeit, wie unter Benutzung eines neuronalen Netzes
mit feedforward Architektur sogar für unterschiedliche Situationen mit unterschiedlichen Optimalitätskriterien die geeigneten Koordinationskoeffizienten gelernt und vorgehalten werden können. Den Eingang dieses Netzes bilden Parameter, welche die
jeweilige Situation, besser: das zur Anwendung vorgesehene Kriterium, kennzeichnen. Am Ausgang des Netzes wird die Matrix mit dem für diesen Zweck in der Vergangenheit erarbeiteten Satz von Koordinationskoeffizienten zur Verfügung gestellt.
Vor der Bewegungsdurchführung werden dann Zufallsvariable r i (i=1,2,...,6) (Rauschen) von geringer Streubreite zu den ausgegebenen Koeffizienten addiert und die
Bewegung mit diesen so veränderten Koeffizienten durchgeführt. Ergibt der Bewertungsvorgang eine Kriteriumsannäherung, so können unter Anwendung der Deltaregel (oder der backpropagation Regel) die synaptischen Gewichte des Netzwerkes
so verändert werden, daß beim nächsten Mal in derselben Situation diese veränderten Koeffizienten ausgegeben werden, wobei vor der Bewegungsausführung erneut
Rauschen zugegeben wird. Diese Vorgehensweise bewirkt also, daß Bewegungsvariablität gegeben ist, das intendierte Ziel dennoch erreicht wird und gleichzeitig die
dazu notwendigen Bewegungen mit Blick auf ein beliebiges Kriterium optimiert werden können.
4.3 Motorischer Apparat. Rückblick und Zusammenfassung.
Zur Analyse des motorischen Apparates wurde aus Gründen der Einheitlichkeit als
Beispielbewegung die Zielbewegung mit dem Arm gewählt. Die unterlegte Bewegung
war dabei ehe ballistisch (Kornhuber 1971) bzw. vom "Typ II" (Freund 1986). Andere
Bewegungsformen, z.B. das Schreiben von Buchstaben oder das Zeichnen von Figuren, erfordern modifizierte Kontroller (vgl. Kalveram 1998a), was das hier beschriebene Grundprinzip der Bewegungskontrolle jedoch nicht in Frage stellt. Die am Beispiel des mehrgelenkigen Arms ausgearbeiten Funktionskreise besitzen biologische
Plausibilität; ob sie allerdings in der vorliegenden Form auch biologisch realisiert
sind, soll hier nicht erörtert werden. Die Armbewegung eignet sich jedenfalls gut, um
den Finger auf die grundsätzlichen Probleme zu legen, die für ein effektives Herbeiführen selbstgestellter Ziele notwendigerweise zu lösen sind.
Im Rückblick erweist sich der motorische Apparat als unerwartet komplex. Der
Grund ist, daß die physikalischen Gesetzmäßigkeiten, welche die Bewegungen des
Körpers und seiner Gliedmaßen beherrschen, bei Zielbewegungen vom neuronalen
Kontroller berücksichtigt werden müssen, sollen diese schnell, präzise, stabil und
selbsterlernbar sein. Die - im technischen Sinne - Unvollkommenheiten des neuromuskulären Apparates, z.B. lange Signallaufzeiten oder die Neigung zur Instabilität,
müssen vom Kontroller zusätzlich beachtet werden.
56
Abbildung 4.28 : Zusammenfassendes Schema des Reafferenzmodells
Im Schema der Abb.4.28 sind die wichtigsten Ergebnisse der vorausgegangenen Analyse zusammengefaßt. Das vorgeschlagene Kontrollprinzip geht aus vom
Reafferenzprinzip, welches unter Zuhilfenahme der Efferenz e den sensorischen
Zufluß a in einen exafferenten (fremderzeugten) Zufluß x' und einen reafferenten (eigenerzeugten) Zufluß r' einteilt. Hierbei wird a als bereits eigenbewegungsbereinigt
vorausgesetzt. Die Werkzeugtransformation F beschreibt dann dasjenige Umweltverhalten, welches von der Efferenz e als verursachender Größe auf die Reafferenz
r' als Werkzeugeffekt führt.
Ein selbstgestelltes afferentes Ziel z kann als gewünschte Reafferenz aufgefaßt
werden, das zur Realisierung - jetzt in Erweiterung des Reafferenzprinzips - in ein
neuronales Modell S-1 eingespeist wird, welches online die Invertierung der Werkzeugtransformation F besorgt. Hierbei zeigt sich, daß die Festlegung der das Ziel
herbeiführenden Efferenzen eine 'Zustandsrückführung' erfordert; das heißt, während
der motorischen Aktion müssen weitere Variablen an der Peripherie gemessen und
dem neuronalen Kontroller zur Verfügung gestellt werden. Dieses sind Variable, welche den jeweiligen - über den intendierten Werkzeugeffekt r hinausgehenden - Zustand u der Umwelt widerspiegeln. Die zurückfließende Afferenz a dient dann als
Istwert im Rahmen einer Regelung über den Regler P dazu, die Steuerung über das
inverse Modell S-1 gegebenenfalls nachzubessern.
In der Gesamtafferenz wird also zwischen den auf den Werkzeugeffekt bezogenen Ex- und Re-Afferenzen (r' bzw. x') und denjenigen Repräsentationen u des
Umweltzustands unterschieden, welche eben nicht auf den intendierten Werkzeugeffekt bezogen sind, aber ebenfalls zur Bewegungssteuerung benötigt werden. Hierbei wird es sich in der Regel um (nicht beabsichtigte) Nebeneffekte der eigenen Tätigkeit handeln.
Die den zusätzlich benötigten Umweltzustand u erfassenden Sensoren sind in
Abb.4.28 in der Einheit FR untergebracht. Infolge der endlichen Signallaufzeiten und
neuronalen Verarbeitungsgeschwindigkeiten kommen die Meldungen dieser Sensoren jedoch in der Regel zu spät. Der auf dem inversen Modell S -1 basierende neuronale Kontroller braucht jedoch für die zu jedem Zeitpunkt erneut zu treffende Entscheidung, welche Efferenz die 'richtige' ist und ausgesendet werden soll, den in diesem Moment herrschenden Umweltzustand. Wenn das inverse Modell hinreichend
genau ist, kann dieser jedoch aus den bereits zurückliegenden Umweltzuständen u
und der momentan handlungsbestimmenden Zielafferenz z vorhergesagt werden
(=Variable u*). Dazu dient in Abb.4.28 der Zustandsprädiktor.
57
Aus der Sicht des neuronalen Kontrollers (Module S-1 plus P) haben die sensorischen Meldungen u des Umweltzustands Steuerfunktionen (sensory feedforward),
während die werkzeugbezogene Afferenz a Regelungszwecken (negative sensory
feedback) dient.
Das sensorische Ziel z hat dabei eine dreifache Funktion: Erstens wird es zusammen
mit dem vorhergesagten Umweltzustand u* vom Modul S-1 für die Invertierung der
Werkzeugtransformation im Sinne einer Steuerung benötigt, zweitens dient es im
Verein mit dem gemeldeten Umweltzustand u der Berechnung von u*, und drittens
hat es im Rahmen der Regelung die Rolle des Sollwerts, mit der die aktuelle Afferenz
a verglichen wird. Eine Diskrepanz zwischen a und z kann dabei als Exafferenz x'
interpretiert werden, welche auszuregeln ist, aber auch auf einen Fehler im inversen
Modell zurückgehen, welcher dann auszubessern ist.
Die Einführung des inversen Modells der Werkzeugtransformation ermöglicht so
eine weitere Modifikation des Reafferenzprinzips, bei der auf das Vorwärtsmodell der
Werkzeugtransformation und die Efferenzkopie zur Vorhersage des reafferenten
Werkzeugeffekts r' verzichtet werden kann: Zur Reafferenzschätzung kann nunmehr
das sensorische Ziel, also der gewünschte reafferente Werkzeugeffekt z, herangezogen werden.
Alle bis hierher besprochenen Variablen, die Zielafferenz z eingeschlossen,
sind kontinuierlich in der Zeit, d.h. sie definieren die serielle Ebene der Informationsverarbeitung. Erzeugt wird die Zielafferenz von einem Mustergenerator, der als Eingangsgröße ein perzeptives Ziel erhält, z.b. eine neue Position des Arms, und
daraufhin eine Folge von gewünschten Afferenzen ausgibt. Zur Kontrolle der
Herbeiführung solcher perzeptiven Ziele sind weitere Variable erforderlich, die in
Abb.4.28 nicht eingezeichnet sind. Diese Variablen sind, wie auch das perzeptive
Ziel, zeitdiskret und definieren die parallele Ebene der Informationsverarbeitung. Den
Zusammenhang zwischen den Ebenen stiftet der Mustergenerator in der Funktion als
Parallel-Serienwandler.
Im Schema der Abb.4.28 sind die wichtigsten Ergebnisse der vorausgegangenen Analyse zusammengefaßt. Das vorgeschlagene Kontrollprinzip geht aus vom
Reafferenzprinzip, welches unter Zuhilfenahme der Efferenz e den sensorischen
Zufluß a in einen exafferenten (fremderzeugten) Zufluß x' und einen reafferenten (eigenerzeugten) Zufluß r' einteilt. Hierbei wird a als bereits eigenbewegungsbereinigt
vorausgesetzt. Die Werkzeugtransformation F beschreibt dann dasjenige Umweltverhalten, welches von der Efferenz e als verursachender Größe auf die Reafferenz
r' als Werkzeugeffekt führt.
58
Ein selbstgestelltes afferentes Ziel z kann als gewünschte Reafferenz aufgefaßt
werden, das zur Realisierung - jetzt in Erweiterung des Reafferenzprinzips - in ein
neuronales Modell S -1 eingespeist wird, welches online die Invertierung der Werkzeugtransformation F besorgt. Hierbei zeigt sich, daß die Festlegung der das Ziel
herbeiführenden Efferenzen eine 'Zustandsrückführung' erfordert; das heißt, während
der motorischen Aktion müssen weitere Variablen an der Peripherie gemessen und
dem neuronalen Kontroller zur Verfügung gestellt werden. Dieses sind Variable, welche den jeweiligen - über den intendierten Werkzeugeffekt r hinausgehenden - Zustand u der Umwelt widerspiegeln. Die zurückfließende Afferenz a dient dann als
Istwert im Rahmen einer Regelung über den Regler P dazu, die Steuerung über das
inverse Modell S-1 gegebenenfalls nachzubessern.
In der Gesamtafferenz wird also zwischen den auf den Werkzeugeffekt bezogenen
Ex- und Re-Afferenzen und denjenigen Repräsentationen u des Umweltzustands
unterschieden, welche eben nicht auf den intendierten Werkzeugeffekt bezogen sind,
aber ebenfalls zur Bewegungssteuerung benötigt werden.Hierbei wirdes sich in der
Regel um (nicht beabsichtigte) Nebeneffekte der eigenen Tätigkeit handeln.
Die den benötigten Umweltzustand u erfassenden Sensoren sind in Abb.4.28 in
der Einheit FR untergebracht . Infolge der endlichen Signallaufzeiten und neuronalen
Verarbeitungsgeschwindigkeiten kommen die Meldungen dieser Sensoren jedoch in
der Regel zu spät. Der auf dem inversen Modell S-1 basierende neuronale Kontroller
braucht jedoch für die zu jedem Zeitpunkt erneut zu treffende Entscheidung, welche
Efferenz die 'richtige' ist und ausgesendet werden soll, den in diesem Moment herrschenden Umweltzustand. Wenn das inverse Modell hinreichend genau ist, kann
dieser aus den bereits zurückliegenden Umweltzuständen u und der momentan
handlungsbestimmenden Zielafferenz z vorhergesagt werden (=Variable u*). Dazu
dient in Abb.4.28 der Zustandsprädiktor.
Im nächsten Kapitel wird höher organisiertes Appetenzverhalten behandelt, wobei die
Funktionsweise des motorischen Apparates Modell stehen soll.
59
5. Abbildungen
Fremdsignal
x1
Eigensignal
r1
Einwirkung
k1
Effektor
F1
x1 + r1
Sensor
GesamtAfferenz
a
(geschätzte)
Exafferenz
x'1
Kommando,
Zielafferenz
(geschätzte)
Reafferenz
r'1
Korrelationsspeicher
S1
Motorik
Efferenz
e1
z
Abbildung 4.1: Ergänztes "Allgemeines Schema zur Erläuterung des Reafferenzprinzips" nach von Holst und Mittelstaedt
(1950, S.467)
Teil a
Fremdsignal
x
Eigensignal
r
Teil b
Einwirkung
k
Effektor
F
Eigensignal
r1
Einwirkung
k1
Effektor
F1
Sensor
Eigensignal
r1
Einwirkung
k1
Effektor
F1
Sensor
Afferenz
a
(geschätzte)
Reafferenz
(geschätzte)
Exafferenz
x'1
Motorik
(geschätzte)
Reafferenz
r'1
Korr.speicher
S1
(geschätzte)
Efferenz e1
r'
(geschätzte)
Fremdsignal
x1
Motorik
r'1
Exafferenz
x'
Einwirkung
k
Effektor
F
x1 + r1
x1 + r1
Afferenz
a
Eigensignal
r
x1 = r + x
x1 = r + x
Fremdsignal
x1
Fremdsignal,
Störung x
Exafferenz
x'1
Korr.speicher
S1
Efferenz e1
Korr.speicher
S
Fehler dx = -x'
Efferenz e
Kommando,
Zielafferenz
Regelung
Efferenz e
z
Abbildung 4.2: Reafferenzprinzip, aufgespalten in zwei Teile.
Teil a: Bereinigung der Sensor-Afferenz a von den Konfundierungen , hervorgerufen von den Effektoren F1 und F bzw. den
Efferenzen e1 und e. Alternativ dazu
Teil b: Bereinigung der Sensor-Afferenz a von der Konfundierung, hervorgerufen vom Effektor F1 bzw. der Efferenz e1 ,
Einstellung der bereinigten Afferenz auf einen vorgegebenen Wert z , und Festhalten dieses Wertes auch unter Störeinflüssen
im Rahmen einer Regelung.
Werkzeugtransformation F:
Fremdsignalx
'Störung'
{ [
]}
r' = F(e) = FS FP FM (e )
Eigensignal
r
+
s=r+x
UMWELT
INDIVIDUUM
Physikalische
Werkzeug-Transf.
FP
Sensorische
Transform.
FS
-
k
k = FM (e)
r = FP (k)
Reafferenz:
Exafferenz:
Afferenz:
Fehler
dx = - x'
Kraft
r' = FS(r)
x' = FS(x)
a = x' + r'
= FS(s)
+
z
Zielafferenz
Motorische
Transform.
FM
Efferenz
e = eS+ eR
Zustandsrückführung
u
Steuerung
Inverses
Modell
S-1
Efferenz
eS
+
S-1(z) = eS
Regelung
Regler
P
1
Efferenz eR
Abbildung 4.3: Erweitertes Reafferenzmodell. Die Hinzunahme des inversen Modells S-1 der Werkzeugtransformation F
ermöglicht das Erreichen des Ziels z im Rahmen einer Steuerung. Bei Abwesenheit von Störungen und korrektem Modell ist
a=r'=z. Die Beibehaltung der Regelung (Schalter 1 geschlossen) gewährleistet die Fehlerkorrektur auch bei Störungen und/oder
Modellfehlern. Fremd/Eigendifferenzierung bzw. Fehlererkennung ist also auch ohne ein Vorwärtsmodell von F möglich, jedoch
nur bei inaktiviertem Regler (Schalter 1, wie gezeichnet, offen). Zum Betrieb von S-1 müssen außer z oft noch Variable, welche
den Umweltzustand u kennzeichnen, gemessen und rückgeführt werden. Dies ist durch den dünnen gestrichelten Pfeil
angedeutet.
Fremdsignal x
'Störung'
Werkzeugtransformation F:
{ [
]}
r' = F(e) = FS FP FM (e)
Eigensignal
r
+
INDIVIDUUM
k = FM (e)
r = FP (k)
Sensorische
Transform.
FS
Reafferenz:
Exafferenz:
Afferenz:
Fehler
dx = - x'
k
Physikalische
Werkzeug-Transf.
FP
s=r+x
UMWELT
Kraft
-
Motorische
Transform.
FM
r' = FS(r)
x' = FS(x) =0
a = x' + r'
= FS(s)
Zustandsrückführung
Efferenz
e
u
LernEingang
+
2
1
z
Zielafferenz
"
Inverses"
Modell
S-1
S-1(z) = eS !
Regler
P
1
2
+
Efferenz
eS
1
2
Efferenz eR
Blinder
Lehrer
Efferenz eB
Abbildung 4.4a: Auto-imitatives Lernen des inversen Modells S-1 der Werkzeugtransformation F in Schalterstellung 2
(gezeichnet). Der "blinde Lehrer" erzeugt beliebige Efferenzen eB, welche dem Lerneingang der Einheit S-1 angeboten werden.
Dem Normaleingang der Einheit S-1 werden gleichzeitig die afferenten Konsequenzen a dieser Efferenzen zugeführt. Auf diese
Weise können den Afferenzen die sie erzeugenden Efferenzen zugeordnet werden. Auch beim Lernen von S-1 müssen
normalerweise außer der Zielvariablen z noch solche Variable, welche den Umweltzustand u kennzeichnen, gemessen und
rückgeführt werden. Dies ist durch den dünnen gestrichelten Pfeil angedeutet. Nach Abschluß des Lernens werden für die
Aktivitätsphase die Schalter wieder in die Stellung 1 gebracht.
Fremdsignal x
'Störung'
Werkzeugtransformation F:
{ [
]}
r' = F(e) = FS FP FM (e)
Eigensignal
r
+
INDIVIDUUM
k = FM (e)
r = FP (k)
Sensorische
Transform.
FS
Reafferenz:
Exafferenz:
Afferenz:
Fehler
dx = - x'
k
Physikalische
Werkzeug-Transf.
FP
s=r+x
UMWELT
Kraft
-
Motorische
Transform.
FM
r' = FS(r)
x' = FS(x) =0
a = x' + r'
= FS(s)
Zustandsrückführung
Efferenz
e
u
LernEingang
+
2
1
z
Zielafferenz
"
Inverses"
Modell
S-1
S-1(z) = eS !
Regler
P
1
2
+
Efferenz
eS
1
2
Efferenz eR =
Blinder
Lehrer
Efferenz eB
Abbildung 4.4b: Auto-imitatives Lernen des inversen Modells S-1 der Werkzeugtransformation F mit alternativ zugeschaltetem
"blinden Lehrer". Dieser erzeugt in der gezeichneten Schalterstellung 2 jetzt beliebige afferente Signale z , die als afferente
Ziele interpretiert werden, und - nachdem die Afferenz a subtrahiert worden ist - vom Regler P in Efferenzen eR umgesetzt
werden. Diese werden wie in Abb.4.4a dem Lerneingang der Einheit S-1 angeboten werden, während dem Normaleingang der
Einheit S-1 gleichzeitig die afferenten Konsequenzen a dieser Efferenzen zugeführt werden.
Die Abb.4.4.a und 4.4.b sind, das Lernen betreffende, funktional äquivalent.
.
Fremdsignal x
'Störung'
Werkzeugtransformation F:
{ [
]}
r' = F(e) = FS FP FM (e)
Eigensignal
r
+
INDIVIDUUM
k = FM (e)
r = FP (k)
Sensorische
Transform.
FS
Reafferenz:
Exafferenz:
Afferenz:
Fehler
dx = - x'
k
Physikalische
Werkzeug-Transf.
FP
s=r+x
UMWELT
Kraft
-
Motorische
Transform.
FM
r' = FS(r)
x' = FS(x) =0
a = x' + r'
= FS(s)
Zustandsrückführung
Efferenz
e
u
LernEingang
+
2
1
dx = 0
"
Inverses"
Modell
S-1
1
2
+
Efferenz
S-1(z) = eS ! eS
Regler
P
1
2
Efferenz eR
Zielafferenz z
Blinder
Lehrer
Abbildung 4.4.c: Auto-imitatives Lernen des inversen Modells S-1 der Werkzeugtransformation F mit Veranschaulichung der
"Erfolgsrückmeldung" durch den gepunkteten Pfeil mit dem Blitzsymbol. Wenn dx=0 ist, wird das Modul S-1 "verstärkt" auf
Lernen" geschaltet. Auch diese Darstellung ist mit der Abb.4.4.a oder 4.4.b funktional äquivalent.
a
a
ϕ
-mg
(ϕ g = 0)
Gelenk 1:
M = −m ⋅ g ⋅ a *
b
Q(t)
k( t )
+
- -
a* = a ⋅ sin ϕ
ϕ( t )
ϕ( t)
ϕ( t )
1/M
R
-
D
C
sin
C = m ⋅ g⋅ a
-
ϕ0
+
+
ϕg
Abbildung 4.5: Eingelenkiger Arm als Drehpendel.
a (oberer Teil der Abbildung): Die gestrichelte Linie zeigt die Körperlängsachse an, die hier mit der Richtung der Schwerkraft
übereinstimmt (ϕg=0). Der Schwerpunkt des Arms befindet sich im Abstand a vom Drehpunkt. Die hier angreifende Kraft -m.g,
multipliziert mit dem zugehörigen Kraftarm a * = a ⋅ sin ( ϕ ( t ) − ϕ
g
) , ergibt das durch die Schwerkraft hervorgerufene
Drehmoment.
b (unterer Teil der Abbildung): Das Analogschaltbild folgt direkt aus der Differentialgleichung (4.1) bzw. (4.2) und beschreibt
das Drehverhalten unter den von Muskeln, Trägheit, Reibung, Federeigenschaften und Schwere hervorgerufenen
Drehmomenten.
1
0.9
0.8
0.7
0.6
Drehmoment
Agonist
[N.m]
Agonist
0.5
0.4
0.3
0.2
0.1
0
-0.1
-0.2
Antagonist
-0.3
-0.4
Drehmoment
Antagonist
[N.m]
-0.5
-0.6
-0.7
-0.8
-0.9
-1
0
200
400
600
800
1000
1200
1400
1600
0
200
400
600
800
1000
1200
1400
1600
0
200
400
600
800
1000
1200
1400
1600
0
200
400
600
800
1000
1200
1400
1
0.8
0.6
Winkelbeschleunigung
0.4
[radian/s-2]
-0.2
ϕ(t)
0.2
0
-0.4
-0.6
-0.8
-1
3
2.5
Winkelgeschwindigkeit
ϕ(t)
[radian/s-1]
2
1.5
1
0.5
0
10
9
8
7
Winkelposition
ϕ(t)
[radian]
6
5
4
3
2
1
0
T
1600
Zeit [ms]
Abbildung 4.6: Zusammenhang zwischen muskulären Drehmomenten einerseits und Winkelbeschleunigung, -geschwindigkeit
und -position andererseits. Bewegungsdauer: T=1500 ms. Die gestrichelte Linie liegt bei T/2=750 ms.
M'
R'
D'
C'
ϕg
ϕ0
ϕ> ( t )
_
ϕ( t )
+
_
+
sin
_
CPG
>> z ( t )
ϕ
+
Arm
Q(t)
>>( t )
ϕ
Abbildung 4.7: Invertierung der Werkzeugtransformation des Arms durch Kompensation der Impedanz unter Rückführung der
Zustandsvariablen
ϕ( t ) und ϕ( t ). Die neuronalen Schätzwerte M', R', D', C', ϕ 0 und ϕ g für die entsprechenden
mechanischen Größen werden auf absteigenden Bahnen eingeschleußt. Die Sinus-Funktion wird als neuronal implementiert
angenommen.
ϕg
ϕ0
ϕ> ( t )
+
ϕ( t )
+
sinus
2
1
R'
D'
C'
Q(t)
M'
+
>> z ( t )
ϕ
2
1
3
5
C'1
C'3
C'5
Arm
2
inverses Modell
sinus
1
>>( t)
ϕ
Q(t)
blinder
Lehrer
Abbildung 4.8: Erlernen des inversen Modells der Werkzeugtransformation des Arms durch Auto-Imitation unter
"reflexanaloger Verarbeitung" der Zustandsvariablen ϕ( t ) und ϕ( t ) . Die neuronalen Schätzwerte M', R', D' und C' für die
entsprechenden mechanischen Größen sind hier durch die (plastischen) Gewichte von Synapsen auf einem formalen "MotoNeuron" repräsentiert. Über den Lerneingang auf der unteren Seite dieses Neurons wird das Potential übermittelt, welches der
blinde Lehrer im Rahmen des dargestellten auto-imitativen Lernvorgangs vorgibt.
Die Sinus-Funktion im gepunktet umrandeten Viereck kann durch ein "Power-Net" (Kalveram 1994) approximiert werden, was in
der linken unteren Ecke angedeutet ist. Hier wird eine Potenreihenentwicklung mit den Koeffizienten C'1, C'3 und C'5
angenommen, die nach der 5-ten Potenz abgebrochen wird (zur Bedeutung der Symbole: s. Abb. 1.5 und Abb.2.6).
x
Synapse
w
z = w .x
Korrelator
I
r
T
y
w = r ⋅ ∫ x( t) ⋅ y( t) dt
0
Abbildung 4.9: Analogschaltbild einer konventionellen Hebbschen Synapse. In der Lernphase wird das synaptische Gewicht w
durch Kreuzkorrelation von präsynaptischer (axonaler) Erregung x und postynaptischer Aktivierung y, die dem (hier nicht
eingezeichneten) Neuron über dessen Lern-Eingang aufgezwungen wird, bestimmt. T bedeutet die Dauer der Lernphase und
r>0 eine Konstante, welche die Lerngeschwindigkeit festlegt. Der gepunktet umrandete Teil kennzeichnet die Funktion der
Synapse nach Abschluß der Lernphase. Der Integratoreingang wird dann auf 0 gesetzt, so daß der Integrator seinen Inhalt
beibehält. z ist dann der Beitrag dieses Axons zum postsynaptischen Potential des Neurons und kann mit dessen output
gleichgesetzt werden, wenn keine weiteren Synapsen vorhanden sind und die Übertragungscharakteristik linear ist.
xi
Eingang
Synapse
wi
w 1 ⋅ x1
wi ⋅ xi
....
+
Korrelator
I
-r
wn ⋅ xn
....
-
Su = z - y
n
z = ∑ wi ⋅ xi
i=1
y
LernEingang
Ausgang
T
wi = −r ∫ xi ⋅ ( z − y) dt
0
Abbildung 4.10: Analogschaltbild einer modifizierten Hebb-Synapse (gestrichelt umrandet), bei der gegenüber Abb.4.6 die
Konstante r>0 durch -r<0 ersetzt ist. Insgesamt n gleichartige Synapsen sind mit dem Neuron so verschaltet, daß RelaxationsLernen ermöglicht wird, d.h., die Summenvariable Su=z-y gegen Null geht. Der Lerneingang hat keinen erzwingenden
Charakter, sondern die hier eingehende Variable y wird von der über die anderen Synapsen erzeugten Erregungssumme z
lediglich abgezogen. Die Gewichte wi sollten sich dann so einstellen, daß z-y gegen Null geht. Nach Abschaltung von y
erscheint dann am Ausgang z.
-
ϕ0
+
ϕg
+
1
ϕ( t )
sinus
2
ϕ( t )
M'
ϕ z ( t)
R'
D'
C'
ϕ( t )
Su(t)= 0 !
1
+
2
-
Addierer
∆t
Arm
1
Q(t)
1
blinder
Lehrer
Abbildung 4.11: Auto-imitativer Erwerb des Modells der inversen Werkzeugtransformation des Arms. Die Kästchen M', R', D'
und C' bezeichnen modifizierte Hebb-Synapsen vom Typ der Abb.4.10. Das rekursive Schema macht deutlich, daß die in
Schalterstellung 1 herbeizuführende Relaxation des neuronalen Netzes - hier das Einstellen des Summenpotentials Su(t) am
Ausgang des Addierers auf den Wert 0 bei voller Variation der Werte Q(t) am Lern-Eingang - unter Einbeziehung der Umwelt
(des Arms) erfolgt. Die Verzögerungseinheit dient dabei der Sicherstellung der relativen Gleichzeitigkeit der sich gegenseitig
kompensierenden Signale.
2.5
C'=2.5
2
Q(t)
1.5
1
0.5
R'=0.3
M'=0.1
0
Su(t)
-0.5
-1
-1.5
0
10
20
Time (second)
30
40
Abbildung 4.12: Simulation der Relaxations-Anordnung in Abb.4.8. Die im Arm-Modell eingestellten Parameter waren M=0.1,
R=0.3, D=0, C=2.5. Bei voller Variation der vom blinden Lehrer dem Armsystem eingeprägten Kräfte Q(t) konvergierte das
Summenpotential Su(t) am Ausgang des Motoneurons nach etwa 30 Sekunden gegen den Wert 0. Während dessen nahmen
die modifizierten Hebb-Synapsen die am Arm-Modell eingestellten Parameterwerte an.
Startposition
∆ϕ =
ϕ( 0 )
ϕ( T ) − ϕ( 0 )
durchmessener Winkel
ϕ( T )
SerienParallelWandlung
(SP)
Sensorische
Integration
Endposition
>>( t )
ϕ
Werkzeugtransformation
F
ϕ> ( t )
ϕ( t )
p=p+rdϕ
ZustandsRückführung
_
+
Fehler
dϕ
Physikalischer
Arm
Q(t)
Inverses Modell
S-1
der Werkzeugtransformation
Neuronales
Netz
ϕ z ( t)
ParallelSerienWandlung
(PS)
Mustergenerator
(CPG)
q
p
q = p ⋅ δϕ T 2
δϕ
Zieldiskrepanz
_
+
Ziel
ϕz
T
Abbildung 4.13: Mehrebenenkontrolle, Parallel-Serien-Wandlung und Serien-Parallel-Wandlung bei der eingelenkigen
Bewegung. Die zeitdiskrete Verarbeitung auf der parallelen Ebene ist durch Doppelpfeile, die zeitkontinuierliche auf der
seriellen Ebene durch einfache Pfeile gekennzeichnet. Auf der parallelen Ebene sind nur Anfangs- und Endzeitpunkte der
Bewegung und die davon ableitbaren Größen Fehler dϕ und Zieldiskrepanz δϕ von Belang. δϕ dient zur Steuerung der
Bewegung über den CPG, dϕ zur Regelung von dessen Verstärkungsparameter p. Auf der seriellen Ebene ist nur die
Steuerung über die "on-line" erfolgende Inversion der Werkzeugtransformation F eingezeichnet.
ϕ( t )
>> z ( t )
ϕ
Inverses
Modell
S-1
ϕ> z ( t )
Q(t)
ϕ( t )
Werkzeugtransf.
F
ϕ( t )
ϕ z ( t)
Abbildung 4.14: Vorhersage der Zustandsvariablen
ϕ( t ) und ϕC ( t ) durch die Variablen ϕ z ( t ) und ϕC z ( t ) , die aus der
CC z ( t ) durch Integration gewonnen werden. Die vorhergesagten Geschwindigkeits- und
gewünschten Beschleunigung ϕ
Positionswerte können verwendet werden, um die aktuell gemessenen Werte bei der Zustandsrückführung im Rahmen der
inversen Modellierung zu ersetzen ("predicted feedback", s. Kalveram 1991b). Dies wird notwendig, wenn, bedingt durch den
bei der Rückführung enstehenden Zeitverlust, die aktuellen Zustandvariablen gegenüber dem Steuersignal Q(t) zu stark
verzögert sind.
u
∆t
v
u ⋅ δ ϕ( t )
v ⋅ δ ϕ( t )
ϕ z ( t)
∆t
- +
ϕ( t )
- +
Inverses
Modell
S-1
ϕ( t )
Qs
+
Q
Werkzeugtransf.
F
ϕ( t)
Qr
ϕ z ( t)
ϕ z ( t)
w
Fehler
dϕ
+
- Abbildung 4.15: Einbettung der Steuerung über das inverse Modell S-1 in Regelkreise (negativ feedback controller). Alle drei
Regler sind vom Typ proportional mit den Verstärkungen u, v und w. Die mit ∆t bezeichneten Verzögerungselemente sollen die
relative Gleichzeitigkeit der zu vergleichenden Signale sicherstellen. Die Regler u und v regeln die Vorhersage der
Zustandsvariablen, der Regler w das Ergebnis der Steuerung (dh. hier, die auf das Steuersignal QS zurückgehende aktuelle
Position). Der gestrichelt umrandete Teil legt eine Interpretation im Sinne des Reafferenzprinzips nahe, indem die
ϕ z ( t ) als gewünschte Reafferenz und dϕ als Exafferenz aufgefaßt werden, die es ggf. zu
ϕ z ( t ) repräsentiert somit die momentane Gleichgewichtslage, w die neuronal erzeugte Federkonstante.
vorhergesagte momentane Position
beseitigen gilt.
Abbildung 4.16: Zielbewegung mit einem zweigelenkigen Arm, bei dem die Bewegung in der Zeichenebene erfolgt. Die
Zielposition Pz wird erreicht, indem bei Schulter und Ellbogen geeignete Zielwinkel ϕ1z und ϕ2z motorisch realisiert werden.
Die Kreise bezeichnen die Massenmittelpunkte, m1, m2 die Massen und M1, M2 die Trägheitsmomente der beiden
Armsegmente. Schwerkraftrichtung verläuft wie in Abb.4.5 parallel zur y-Achse.
zweigelenkiger
aktuelle
Arm
Steuergröße
Position
Q = ( Q1, Q 2 )
P = ( x , y)
P = F( Q )
inverses
Modell
Q = S−1(Pz )
gewünschte
Position
Pz = ( x z , yz )
Zustandsrückführung:
ϕ1, ϕ 2 und ϕ1, ϕ 2
Fehler dP
+
Abbildung 4.17: Vereinfachte Darstellung der Ansteuerung des zweigelenkigen Arms der Abb.4.16. mittels eines inversen
Modells S-1 der Werkzeugtransformation F des Arms. Der neuronale Kontroller muß über S-1 diejenigen muskulären
Drehmomente Q1, Q2 als Steuersignal bereitstellen, die das gewünschte Ziel Pz verwirklichen. Der von F zurück nach S-1
verlaufende Pfeil symbolisiert die erforderliche Zustandsrückführung (hier: Winkelpositionen und -geschwindigkeiten, bezogen
auf beide Gelenke). Die Doppelpfeile kennzeichnen wiederum zeitdiskrete (parallele), die dünnen zeitkontinuierliche (serielle)
Arbeitsweise. Nach Bewegungsende können die gewünschte und die aktuell erreichte Position der Armspitze verglichen werden
und der Fehler dP ggf. zur Korrekturzwecken herangezogen werden.
aktuelle cartesische Position
y
x
Physikalischer
Arm
Vorwärts - Kinematik FK
ϕ 1( 0 )
ϕ 1( T )
ϕ 2 (T)
aktuelle WinkelPosition
Physikalische + sensorische
Integration
>>1( t )
ϕ
ϕ 2 (t)
ϕ> 1( t )
ϕ> 2 ( t )
Q1 ( t )
Physikalischer
Arm
Q 2 ( t)
Inverse Dynamik S -1
D
ZustandsRückführung
>>1z ( t )
ϕ
ϕ 2z ( t )
CPG1
ϕ 1( 0 )
ϕ 1( T )
Startposition
Endposition
Serien-ParallelWandlung
(SP)
ϕ 2 (t)
Vorwärts - Dynamik FD
ϕ1( t )
ParallelSerienWandlung
(PS)
CPG2
q1
ϕ 2(T)
ϕ 2 ( 0)
Endposition
q2
q1 = p1 ⋅ δϕ 1 T 2
Startposition
q2 = p 2 ⋅ δϕ 2 T 2
_
_
+
p1 ← p1 + r ⋅ dϕ1
Fehler dϕ
ϕ1
ϕ 2 ( 0)
δϕ 1
T
p2 ← p2 + r ⋅ dϕ 2
δϕ 2
Zieldiskrepanz
_
_
+
+
Fehler dϕ
ϕ2
+
Zielwinkel
ϕ1z
ϕ 2z
Inverse Kinematik S -1
K
xz
yz
cartesische Zielkoordinaten
Abbildung 4.18: Blockschaltbild der Kontrolle einer Zielbewegung mit dem zweigelenkigen Arm. Die Werkzeugtransformation
F ist aufgeteilt in die Vorwärtsdynamik und die Vorwärtskinematik. Bei der inversen Modellierung ist entsprechend zuerst das
inverse Modell der Vorwärtskinematik und dann das inverse Modell der Vorwärtsdynamik anzuwenden. Da die Invertierung der
Dynamik die Entkopplung der Armsegmente bedeutet, kann Steuerung der Bewegungsweite, die für eingelenkigen Arms
entworfen wurde (s. Gl. (4.9)), auch beim zweigelenkigen Arm angewendet werden. Weitere Erläuterungen im Text.
Abbildung 4.19: Analog-Schaltbild der Kontrolle einer Zielbewegung mit dem zweigelenkigen Arm.
Die mit "+" gekenzeichneten ovalen Summiereinheiten erzeugen on-line die muskulären Drehmomente Q1 und Q2, also den
Motor-Output. An den Außenseiten links und rechts ist jeweils die Kompensation für die mechanische Dämpfung und die
mechanische Federkraft zu erkennen. Zwischen den Summiereinheiten ist die Verschaltung (hohle Pfeile) angeordnet, welche
die Rückwirkungen eines Gelenks auf das jeweils andere kompensieren. Die Berechnung der Koeffizienten A-F, die gemäß
(4.13) von den Winkelpositionen der Armsegmente abhängen, geschieht ebenfalls on-line in der unteren mit GC-Netzwerk
bezeichneten Einheit. Die breiten Doppelpfeile stehen für parallele (zeitdiskrete), die schmalen Pfeile für serielle
(zeitkontiniuierliche) Variable. (Modifiziert nach Kalveram 1991b).
Abbildung 4.20: Erwerb der inversen Dynamik des zweigelenkigen Arms durch Auto-Imitation.
In der Schalterstellung 1 treiben die vom blinden Lehrer erzeugten Drehmomente Q'1und Q'2 den Arm zu Bewegungen an.
Gleichzeitig werden diese Signale dem Lern-Eingang des neuronalen Kontrollers zugeführt (gestrichelte Pfeile). Die an den
beiden Gelenken abgenommenen aktuellen Werte für die Winkelbeschleunigung, -geschwindigkeit und -position gelangen in
den Normal-Eingang des Kontrollers. Die Geschwindigkeits- und Positionswerte dienen dabei der Zustandsrückführung, die
Beschleunigungswerte als die späteren Zielbeschleunigungen. ϕg symbolisiert wechselnde Winkel mit der Schwerkraftrichtung
während des Lernens. Nach Etablierung des inversen Modells der Vorwärtsdynamik kann der Schalter in Stellung 2 gebracht
werden, um beliebige Zielbeschleunigungen konkret herbeizugeführen.
Abbildung 4.21: Potenzierungsnetzwerk, die inverse Dynamik des zweigelenkigen Arms repräsentierend. Die Knoten der
hidden layer werden als Multiplizierer interpretiert, die zugehörigen Synapsen (kleine angesetzte Kreise) als Exponenten.
Exponenten ungleich 1 kommen jedoch nur bei den Knoten 6 und 7 vor, wenn man von den trigonometrischen Subnetzwerken
absieht. Die Ausdrücke vor der Ausgabeschicht bezeichnen die synaptischen Gewichte, die für die Neuronen dieser Schicht,
welche als Addierer arbeiten, einzusetzen sind. Das Netzwerk repräsentiert also eine Potenzreihe mit 2 als höchstem
Exponenten.
Abbildung 4.22: Erwerb der inversen Kinematik des zweigelenkigen Arms durch Auto-Imitation.
In der Schalterstellung 1 treiben die vom blinden Lehrer willkürlich vorgebenen Winkel ϕ'1und ϕ'2 über die bereits etablierte
inverse Dynamik und die Mustergeneratoren (nicht eingezeichnet) den Arm zu Bewegungen an. Gleichzeitig werden die Winkel
dem Lern-Eingang des neuronalen Kontrollers zugeführt (gestrichelte Pfeile). Die Vorwärtskinematik setzt die aktuell erzeugten
Winkel dann in die zugehörigen aktuellen cartesischen Koordinaten x, y der Armspitze um, welche, visuell rückgemeldet, dem
Normaleingang des Kontrollers zugeführt werden. Nach Etablierung des inversen Modells der Vorwärtskinematik kann der
Schalter in Stellung 2 gebracht werden, um beliebige cartesische Zielpositionen xz, yz konkret herbeizugeführen.
Abbildung 4.23: Zielbewegung mit einem dreigelenkigen Arm, bei dem die Bewegung in der Zeichenebene erfolgt. Die
Zielposition Pz wird erreicht, indem bei Schulter-, Ellbogen- und Handgelenk geeignete Zielwinkel ϕ1z, ϕ2z und ϕ3z motorisch
realisiert werden. Die Kreise bezeichnen die Massenmittelpunkte. m1, m2 und m3 stellen die Massen und M1, M2 und M3 die
Trägheitsmomente der drei Armsegmente dar. Die Richtung der Schwerkraft ist parallel zur y-Achse. Im Unterschied zum
zweigelenkigen Arm (s. Abb.4.12) ist nunmehr ein- und dieselbe Position der Armspitze durch verschiedene Kombinationen der
Gelenkwinkel zu erreichen.
aktuelle cartesische Position
y( T )
x( T )
Vorwärts-Kinematik
ϕ 1( 0)
ϕ 1( T )
ϕ 3 (T )
ϕ 2 (T)
aktuelle WinkelPosition
ϕ 3 ( 0)
Physikalische + sensorische
Integration
ϕ 1( t )
ϕ 2 (t)
ϕ 3 (t)
Physikalischer
Arm
Vorwärts-Dynamik
ϕ (t)
Q1( t )
ϕ (t)
Serien-ParallelWandlung
(SP)
Q3 (t)
Q 2 (t)
ϕ1z ( t)
Inverse Dynamik
ZustandsRückführung
ϕ1z ( t)
ϕ 3 z ( t)
ϕ 2z ( t)
Beschleunigungs-Mustergeneratoren
q1
T
q3
q2
q i = p i ⋅ δϕ
δϕ 1
T2
i
i = 1, 2, 3
δϕ 3
δϕ 2
+
_
_
ϕ 1z
Zieldiskrepanzen
_
+
+
ParallelSerienWandlung
(PS)
ϕ 2z
ϕ 3z
konkrete
Zielwinkel
Redundanz-Generator
β1
β2
nicht-redundante
inverse Kinematik
Koordinationsmatrix
C
xz
fiktive
Zielwinkel
Inverse
Kinematik
yz
cartesische Zielkoordinaten
Abbildung 4.24: Kontrolle der Zielbewegung eines dreigelenkigen Arms unter Anwendung einer redundanzerzeugenden
inversen Kinematik. Die beiden cartesischen Zielkoordinaten werden zunächst mittels eines von unendlich vielen
nichtredundanten Modellen der inversen Kinematik (fiktive zweigelenkige Arme mit z.B. unterschiedlichen Segmentlängen) in
zwei fiktive Ausgabe-Winkel β 1 und β 2 umgerechnet. Aus diesen bestimmt der Redundanzgenerator dann die drei Zielwinkel
ϕ1z, ϕ2z, ϕ3z, und zwar unter Anwendung der Koordinationsregel, die von der Koordinationsmatrix C festgelegt wird. Die Matrix
C adressiert gleichzeitig auch das durch die angewendete Koordinationsregel definierte nichtredundante inverse Modell der
Kinematik. Dieses Vorgehen gewährleistet, daß ein in cartesischen Koordinaten vorgegebenes Ziel auch bei zufällig
variierenden Elementen der Matrix C getroffen wird.
aktuelle cartesische Position
x
y
Integration
Vorwärts-Kinematik
Vorwärts-Dynamik
Inverse Dynamik
Beschleunigungsmustergenerator
ϕ1z
ϕ 2z
ϕ 3z
konkrete
Zielwinkel
Redundanz-Generator
β '2
β '1
β1
Blinder
Lehrer
β2
nicht-redundante
inverse Kinematik
zu trainierende
Funktionseinheit
Inverse
Kinematik
Koordinationsmatrix
C
xz
yz
cartesische Zielkoordinaten
Abbildung 4.25: Lernen der redundanzerzeugenden inversen Kinematik durch Auto-Imitation.
Die vom blinden Lehrer ausgegebenen (jetzt fiktiven) Gelenkwinkel β'1, β'2 gelangen in den Lerneingang (schattierte
Doppelpfeile) der zu trainierenden Einheit. Gleichzeitig erzeugt der Redundanzgenerator daraus unter Anwendung der aktuellen
Koordinationsmatrix C die drei Zielwinkel ϕ1z, ϕ2z, ϕ3z , welche über die bereits funktionsfähigen Stufen (s. Abb.4.24) in
aktuelle cartesische Positionen x, y umgesetzt werden. Diese werden rückgeführt und zusammen mit den Elementen der
aktuellen Koordinationsmatrix C den Normaleingängen der zu trainierenden Einheit eingegeben, der damit alle zum Lernen
notwendigen Signale zur Verfügung stehen.
a
b1: Testen mit c=0
b2: Testen mit c=0.5
b3: Testen mit c=1
error
0.8
error
error
0.8
0.8
0.6
0.6
0.6
0.4
0.4
0.4
0.2
0.2
0.2
0
0
0
-1
-1.5
y
-2 0.5
1.5
1
x
x = 0.1268, s = 0.2213
2
-1
-1.5
y
-2 0.5
1.5
1
2
-1
-1.5
y
x
x = 0.0225 , s = 0.0337
-2 0.5
1.5
1
2
x
x = 0.0310, s = 0.0166
Abbildung 4.26: Simulationsexperiment zum Erlernen einer redundanten inversen Kinematik des dreigelenkigen Arms durch
Auto-Imitation (Koordinationsregel: ϕ1z=ß1, ϕ2z=ß2 und ϕ3z=c.ϕ2z).
a : Lernphase. Die Kreuze markieren die Positionen der Armspitze für die vom blinden Lehrer vorgegebenen 100 fiktiven
Gelenkwinkel ß1, ß2. Der Koordinationsparameter c variierte dabei zufällig zwischen 0 und 1.
b1, b2, b3 : Aktivitätsphase. Die zu treffenden Zielpositionen x, y bestanden aus den 441 Kreuzungspunkten eines Test-Gitters,
dessen Eckpunkte mit dem in der Lernphase verwendeten Gitter übereinstimmten. Dargestellt sind die Fehler (Differenzen
zwischen Zielvorgaben und tatsächlichen Positionen) bei drei verschiedene Werte von c in der Aktivitätsphase.
x und s bedeuten Mittelwert und Standard-Abweichung der Fehler.
kriteriumsbewertetes
Bewegungsergebnis
Koordinationsmatrix
C
c11
Zuschalten von
Rauschen
r1
+
c12
r2
c21
r3
c22
r4
c31
r5
c32
r6
-
C-Generator
Anpassung der
synaptischen Gewichte bei
Annäherung an das
Kriterium
Situation,
Optimierungskriterium
Abbildung 4.27: Feedforward Netzwerk zur Optimierung von Koordinationskoeffizienten. Der obere Eingang dient zur
Adressierung des in einer gegebenen Situation anzuwendenden Optimierungskriteriums. Die mit r1-r6 bezeichneten Pfeile
stellen weitere Eingänge dar, über welche den Ausgangs-Neuronen Rauschen (= kleine Zufallsschwankungen mit dem
Mittelwert 0) zugeschaltet werden können. Die nach der Zuschaltung von Rauschen resultierenden Koordinationskoeffizienten
cij werden dann für die redundanzerzeugende inverse Kinematik (s. Abb.24) verwendet. Ergibt die Bewertung der erzeugten
Bewegung hinsichtlich des Optimierungskriteriums eine Annäherung, so können z.B. mittels der Deltaregel (oder der
backpropagation Regel) die synaptischen Gewichte des Netzwerkes so verändert werden, daß in der Folge entsprechend
verbesserte Koordinationskoeffizienten ausgegeben werden.
Werkzeugtransformation F:
Fremdsignal x
'Störung'
{ [
]}
r' = F(e) = FS FP FM (e )
Eigensignal
r
+
s=r+x
UMWELT
INDIVIDUUM
Sensorische
Transform.
FS
-
k
Physikalische
Werkzeug-Transf.
FP
k = FM (e)
r = FP (k)
Reafferenz:
Exafferenz:
Afferenz:
Fehler
dx = - x'
Kraft
r' = FS(r)
x' = FS(x)
a = x' + r'
Motorische
Transform.
FM
FR
Zustandsrückführung
Efferenz
e = eS+ eR
u
Zustandsprädiktion
u*
+
Zielafferenz
z
Mustergenerator
Inverses
Modell
S-1
Steuerung
Efferenz
eS
+
S-1(z) = eS
perzeptives
Ziel
Regelung
Regler
P
1
Efferenz eR
Abbildung 4.28: Zusammenfassendes Schema des Reafferenzmodell der Sensumotorik
Literatur2
Literatur
Anochin, P. K. (1967) Das funktionelle System als Grundlage der physiologischen Architektur des Verhaltensaktes. In: J. Bures, E. Roy
John, P.G. Kostjuk, L. Pickenhain (Hrgr) Abhandlungen aus dem Gebiet der Hirnforschung und Verhaltensphysiologie, Band 1. Jena: Gustav
Fischer
Anokhin, P. K. (1974) Biology and neurophysiology of the conditioned reflex and its role in adaptive behavior. New York: Pergamon
Arnold, M. B. (1960) Emotion and personality. Columbia, New York
Beer, R. D. (1990). Intelligence as adaptive behavior. An experiment in computational neuroetholgy. Boston: Academic Press.
Berlyne, D. E. (1960) Conflict, arousal and curiosity. New York: McGraw-Hill
Bischof, N. (1975) A systems approach toward the functional connections of attachment and fear. Child Development 46, 801-817
Bischof, N. (1985). Das Rätsel Ödipus. München: Piper.
Bossel, H. (1987) Systemdynamik. Braunschweig: Vieweg
Boyd, R. (1985) Culture and the evolutary process. Chicago: University of Chicago Press
Braitenberg, V. (1986) Künstliche Wesen: Verhalten kybernetischer Vehikel. Braunschweig: Vieweg
Bronstein, I. N., Semendjajew, K. A. (1986). Taschenbuch der Mathematik. Ergänzende Kapitel. 4. Auflage. Hrsg. G. Grosche, V. Ziegler,
D. Ziegler. Thun: Verlag Harri Deutsch (S.164).
Brown, R., Freeman, S., McFarland, D. (1974) Toward a modell for the copulatory behavior of the male rat. In: McFarland, D.(ed.)
Motivational control systems analysis. Academic Press, London
Collins, J. J., Stewart, I. (1993) Coupled nonlinear oscillators and the symmetries of animal gaits. J Nonlinear Sci. 3, 349-392
Cruse, H. (1990) What mechanisms coordinate leg movements in walking arthropods? Trend in Neurosciences 13, 15-21
Dawkins, R. (1976) The selfish gene. Oxford: Oxford University Press.
Desmond, J. E., Moore, J. W. (1988). Adaptive timing in neural networks: The conditioned response. Biol. Cybern, 58, 405-415.
Dörner, D. (1979) Problemlösen als Informationsverarbeitung. Stuttgart: Kohlhammer
Duffy, E. (1962) Activation and behavior. New York: Wiley
Düker, H. (1975) Untersuchungen über die Ausbildung des Wollens. Bern: Huber
Eckmiller E. (1985) The transition between pre-motor eye velocity signals and oculomotor eye position signals im primate brain stemm
neurons during pursuit. In E. L. Keller, D.S. Zee (Eds.) Adaptive processes in visual and oculomotor systems. Oxford: Pergamon Press
Ehrhardt, K. J. (1975) Neuropsychologie motivierten Verhaltens. Stuttgart: Enke
Eibl-Eibesfeld, I. (1975). Krieg und Frieden aus der Sicht der Verhaltensforschung (Neuausgabe 1984) München: Piper.
Eibl-Eibesfeld, I. (1987) Grundriß der vergleichenden Verhaltensforschung - Ethologie. (7. Auflage). München: Piper
Franck, D. (1979) Verhaltensbiologie. Stuttgart: Thieme
Freund, H. J. (1986) Time control of hand movements. In.: H.J. Freund, U. Büttner, B. Coghen, J. Noth (Eds) The oculomotor and
skeletalmotor systems. Progress in Brain Res. 1986, 287-294
Glenberg, A. M. (1997) What is memory for. Behavioral and Brain Sciennces 20, 1-55
Grillner, S. (1975) Locomotion in vertebrates: Central mechanisms and Reflex interaction. Physiological Review, 55, 247-304
Grossberg, S., Schmajuk, N. A. (1989). Neural dynamics of adaptive timing and temporal discrimination during associative learning. Neural
Net, 2, 79-102.
Hadamard, J. (1923) Lectures on the Cauchy problem in linear partial differential equations. New Haven: Yale University Press
Hamilton, W. D. (1970). Selfish and spiteful behavior in an evolutionary model. Nature, 228, 1218-1220.
Hamilton, W.D. (1964). The genetical evolution of social behavior I and II. Journal of Theoretical Biology, 7, 1-16 and 17-52.
Hammerl, M. (1991) Effekte signalisierter Verstärkung. Regensburg: Roederer
Harper, D. G. C. (1991). Communication. In: J.R. Krebs , N.B. Davies (Eds.), Behavioural ecology. An evolutionary approach (3rd edn.).
Oxford: Blackwell Scientific Publications (pp. 374-397).
Hassenstein, B. H. (1980) Instinkt, Lernen, Spielen, Einsicht. München: Piper
Hebb, D. O. (1949) The Organization of behaviour. New York: Plenum Press
Hein, A., Held, R. (1962) A neural model for labile sensorimotor coordinations. In A. Hein, R. Held (Ed.) Biological prototypes and
synthetic systems. New York: Plenum Press
Heisenberg, M. (1983). Initiale Aktivität und Willkürverhalten bei Tieren. Naturwissenschaften 70, 70-78
Heisenberg, M., Wolf, R. (1979). On the fine structure of yaw torque in visual flight orientation of drosophila melanogaster. J. Comp.
Physiol. 130, 113-130
1
Held, R., Hein, A. (1963) Movement produced stimulations in the development of visually guided behavior. Journal of Comparative and
physiological Psychology, 56, 872-876
Helson, H. (1964) Adaptation-level theory. New York: Harper , Row
Henry, J. P., Stephens, P. (1977) Stress, health and social environment: A sociobiologic approach to medicine. New York: Springer
Heuer, H. (1983) Bewegungslernen. Stuttgart: Kohlhammer
Heuer, H. (1984) On re-scaleability of force and time in aiming movements. Psychol. Research, 46, 73-86
Hitchcock, J. M., Davis, M. (1991). Efferent pathways of the Amygdala involved in conditioned fear as measured with the fear-potentiated
startle paradigm. Behav Neurosci, 105, 826-842
Hoffmann, J. H. (1998) Kognition im Dienste der Handlungssteuerung. Ein Kommentar zu Wolfgang Prinz ((1997). Psychologische
Rundschau, 49, 21-30
Holst E. von (1938) Die relative Koordination als Phänomen und Methode zentralnervöser Funktionsanalyse. Ergebnisse der Physiologie, 42,
228-306 (Z-Name?)
Holst, D. von (1972) Renal failure as the cause of death in Tupaja belangeri exposed to persistent social stress. J. Comp. Physiol., 78, 236273
Holst, E. von, Mittelstaedt, H. (1950) Das Reafferenzprinzip (Wechselwirkungen zwischen Zentralnervensystem und Peripherie).
Naturwissenschaften 37, 464-476
Holzapfel, M. (1940) Triebbedingte Ruhezustände als Ziel von Appetenzhandlungen. Die Naturwissenschaften, 28, 273-280
James, W. (1884) The physical basis of emotion. Psychol. Rev. 1, 516-529
Jansen, G. (1986) Zur "erheblichen Belästigung" und "Gefährdung" durch Lärm. Z. f. Lärmbekämpfung 33, 2-7
Jordan, M. I. (1988) Supervised learning and systems with excess degrees of freedom. COINS Technical Report 88-27, 1 - 41
Kalveram, K.Th. (1971). Modell und Theorie in systemtheoretischer Sicht. Psychologische Beiträge, 13, 366-375
Kalveram, K.Th. (1975) Das Marburger System: 1. Teil: Das Digital-System. Marburg: Bericht Nr. 44 aus dem Institut für Psychologie.
Kalveram, K.Th. (1981) Erwerb sensumotorischer Koordinationen unter störenden Umwelteinflüssen: Ein Beitrag zum Problem des
Erlernens von Werkzeuggebrauch. In L. Tent (Ed.): Erkennen, Wollen, Handeln. Festschrift für Heinrich Düker (S. 336-348). Göttingen:
Hogrefe
Kalveram, K.Th. (1985). Grundzüge eines psychobiologischen Funktionsmodells der Wechselwirkung zwischen Individuum und Umwelt.
Psychologische Beiträge, 27, 402-415.
Kalveram, K.Th. (1990) A neural network acquiring the inverse of a tool or limb transformation by "self-imitation learning". Poster at the
ICNC - 10th Cybernetic Congress of the DGK, Düsseldorf
Kalveram, K.Th. (1991a) Pattern generating and reflex-like processes controlling aiming movements in the presence of inertia, damping and
gravity. Biol. Cybern. 64, 413-419
Kalveram, K.Th. (1991b) Controlling the dynamics of a two-jointed arm by central patterning and reflex-like processing. Biol. Cybern. 65,
65-71
Kalveram, K.Th. (1991c) Sensumotorik des Sprechens oder Wie man "ta-ta-tas" spricht und gegebenenfalls dabei stottert. Psychologische
Beiträge, Bd. 33, 94-121
Kalveram, K.Th. (1991d) Über Aggression und Friedensfähigkeit des Menschen. Ein Beitrag zur Verhaltensbiologie des Krieges.
Psychologische Beiträge, Bd. 33, 177-201
Kalveram, K.Th. (1992) A neural network model rapidly learning gains and gating of reflexes necessary to adapt to an arm's dynamics. Biol.
Cybern. 68, 183-191
Kalveram, K.Th. (1993a) Power series and neural-net computing. Neurocomputing 5, 165-174
Kalveram, K.Th. (1993b) A neural-network model enabling sensorimotor learning: Application to the control of armmovements and some
implications for speech-motor control and stuttering. Psychol. Res. 55, 299-314
Kalveram, K.Th. (1998) A neural oscillator model learning given trajectories, or how an "allo-imitation algorithm" can be implemented into
a motor controller. In J. Piek (Ed.), Motor control and human skill: A multi-disciplinary perspective. Champaign: Human Kinetics (pp. 127140)
Kalveram, K.Th., Merz F. (1976) Über die Unterscheidung zwischen Eigenem und Fremden oder Warum Hühner beim Laufen mit dem
Kopf nicken. Psychologische Beiträge, 18, 135-142
Kalveram, K.Th., Natke, U. (1996) Movement control by inverse modelling of the tool transformation: Redundancy generation and wasting
by coordinative structures. Conference on Bernstein's Traditions in Motor Control, 1996, Pennsylvania State University
Kalveram, K.Th., Natke, U. (1997) Stuttering and misguided learning of articulation, or why it is extremely difficult to estimate the physical
parameters of limbs. In H. F. M. Peters, W. Houstijn, P. H. H. M. van Lieshout (Eds.), Speech Motor Control and Fluency Disorders.
Amsterdam: Elsevier. (pp 89-98)
Keele S. W. (1968) Movement control in skilled motor performance. Psychological Bulletin, 70, 387-403
Klopf, A. H. (1988). A neuronal model of classical conditioning. Psychobiology, 16, 85-125
Kohler I. (1964) The formation and transformation of the visual world. Psychological Issues, Monograph 12. (pp.174-176)
2
Kohler I. (1966) Die Zusammenarbeit der Sinne und das allgemeine Adaptationsproblem. In W. Metzger (Hrsg.) Handbuch der Psychologie
(Bd.1). Göttingen: Verlag für Psychologie (pp.173-175)
Kohonen, T. (1982a). Selforganized formation of topologically correct feature maps. Biol Cybern, 43, 59-69.
Kohonen, T. (1982b). Analysis of a simple self-organizing process. Biol Cybern 44, 135-140.
Kornhuber, H. H. (1971) Motor functions of cerebellum and basal ganglia: The cerebellocortical saccadic (ballistic) clock, the
cerebellonuclear hold regulator, and the basal ganglia ramp (voluntary speed smooth movement) generator. Kybernetic 8, 157-162
Krebs, J. R. ,Dawkins R. (1984). Animal signals: mind reading and manipulation. In: J.R. Krebs , N.B. Davies (Eds.), Behavioural ecology.
An evolutionary approach (2nd edn.) Oxford: Blackwell Scientific Publications. (pp. 380-402).
Küpfmüller, K. , Poklekowski, R. (1956) Der Regelmechanismus willkürlicher Bewegungen. Z. Naturforschung 11b, 1-7
Lauterbach, W., Sarris, V (1980) Beiträge zur psychologischen Bezugssystemforschung. Bern usw.: Hans Huber
Lazarus, R. S. (1966) Psychological stress and the coping process. New York: McGraw-Hill
Lorenz K. (1953) Über angeborene Instinktformeln beim Menschen. Deutsche medizinische Wochenschrift, 45, 45-46
Lorenz K., Tinbergen N. (1939) Taxis und Instinkthandlung in der Eirollbewegung der Graugans. Z. Tierpsychologie, 2, 1-29
Lorenz, K. (1966) Über tierisches und menschliches Verhalten. München: Piper
Lorenz, K. (1978) Vergleichende Verhaltensforschung. Grundlagen der Ethologie. Wien: Springer
Lorenz, K. (1979). Die Rückseite des Spiegels. München: Deutscher Taschenbuchverlag.
Lorenz, K. (1983) Das Wirkungsgefüge der Natur und das Schicksal des Menschen (2. Auflage, Erstauflage 1978). München: Piper
MacGuigan, F. J. (1983) Einführung in die Experimentelle Psychologie. Frankfurt: Fachbuchhandlung für Psychologie
MacKay, D. J., Miller, K. D. (1990) Analysis of Linsker's simulations of Hebbian rules to linear networks. Network, 1, 257-297
Mackintosh, N. J. (1975). A theory of attention: Variations in the associability of stimuli with reinforcement. Psychol Review, 82, 276-298.
Markl, H. (1982). Evolutionsbiologie des Aggressionsverhaltens. In: R. Rilke , W. Kempf (Hrsg.), Aggression. Bern: Huber.
Markowitsch, H. J. (1996) Neuropsychologie des menschlichen Gedächtnisses. Spektrum der Wissenschaft, 9, 52-61
Maynard Smith, J. (1974). The theory of games and the evolution of animal conflicts. Journal of Theoretical Biology, 47, 209-221.
McDougall, W. (1908) An introduction to social psychology. London: Methuen
Merz, F. (1965). Aggression und Aggressionstrieb. In: H. Thomae (Hr), Handbuch der Psychologie, Bd.2 Motivationslehre (S. 569-601).
Göttingen: Hogrefe.
Miller J. P., Selverstone, A. I. (1985) Neural mechanisms for the production of the lobster pyloric motor pattern. In: A.I. Selverstone (Ed.)
Model neural networks and behavior. New York: Plenum Press
Miller, E. K., Desimone, R. (1991). A neural mechanism for working and recognition memory in Inferior Temporal Cortex. Science, 254,
1377-1379.
Miller, G. A., Galanter, E. , Pribram, K. H. (1960) Plans and the structure of behavior. Holt, Rinehart and Winston, New York
Mittelstaedt H. (1971) Reafferenzprinzip - Apologie und Kritik. In: W.D. Keidel, K. H. Plattig (Hrsg) Vorträge der Erlanger
Physiologentagung 1970. Berlin usw.: Springer (pp. 161-171)
Mittelstaedt H. (1990) Basic solutions to the problem of head-centric visual localization. In: R. Warren, A. H.Wertheim (Eds.) The
perception and control of self-motion. Hilsdale: Erlbaum
Mowrer, O. H. (1960) Learning theory and behavior. New York: Wiley
Neilson P. D. , Neilson M. D., O'Dwyer N. J. (1992) Adaptive model theory: Application to disorders of motor control. In: J J Summers (ed)
Approaches to the study of motor control and learning (pp 495-548). Elsevier
Neilson P. D., Neilson M. D., O'Dwyer N. J. (1995) Adaptive optimal control of human tracking. In: D J Glencross , J P Piek (eds) Motor
control and sensory motor integration: Issues and directions (pp 97-140). Elsevier
Neilson, P. D., Neilson, M. D., O'Dwyer, N. J. (1998) Evidence for rapid switching of sensory-motor models. In: J P Piek (ed.) Motor
behavior and human skill. A multidisciplinary approach. Human Kinetics (pp. 105-126)
Pohl R. W. (1962) Mechanik, Akustik und Wärmelehre. 15. Auflage. Berlin usw.: Springer Verlag
Prinz, W. (1998) Die Reaktion als Willenshandlung. Psychologische Rundschau, 49, 10-20
Pusey, A. E. , Packer, C. (1987). Dispersal and philopatry. In: B. B. Smuts, D. L. Cheney, R. M. Seyfarth, R. W. Wrangham, Th., T.
Struhsaker (Eds), Primate societies (pp. 250-266). Chicago: The University of Chicago Press.
Reichardt W. (1961) Autocorrelation as a principle for evaluation of sensory information by the central nervous system. In. W A Rosenblith
(ed) Principles of sensory communications. Wiley, New York
Reichardt W. (1987) Evaluation of optical motion information by movement detectors. J. Comp. Physiol., A 161, 533-547
Rescorla, R. A., Wagner, A. R. (1972). A theory of Pavlovian conditioning: Variations in the effectiveness of reinforcement and
nonreinforcement. In A. H. Black. , W. F. Prokasy (Eds.), Classical conditioning II: Current research and theory (pp. 64-99). New York:
Appleton-Century-Crofts
3
Riechert, S. E., Hammerstein, P. (1983). Game theory in the ecological context. Annual Reviews in Ecological Systems, 14, 377-409.
Sanders, A. F. (1971) Psychologie der Informationsverarbeitung. Bern: Huber
Schachter, S., Singer, J. (1962) Cognitive, social and physiological determinants of emotional state. Psychological Review, 69, 379-399
Schneider, K. , Schmalt, H.D. (1981) Motivation. Stuttgart: Kohlhammer
Schneider, K. , Wothe, K. (1979) The contribution of naso-oral and postingestional factors in taste aversion learning in the rat. Behavioral an
Neural Biology 25, 30-38
Schneider, K., Posse N. (1982) Risk-taking in achievement-oriented situations: Do people really maximize affect or competence
information? Motivation and Emotion, 6, 259-271
Schneider, W., Shiffrin, R. M. (1977) Controlled and automatic human information processing: I, Detection, search and attention. Psychol.
Review, 84, 1-66
Seligman, M. E. P. (1975) Helplessness: On Depression, development and death. San Fransisco: Freeman
Shiffrin, R. M., Schneider, W. (1977) Controlled and automatic human information processing: II, Perceptual learning, automatic attending,
and a general theory. Psychol. Review, 84, 127-190
Shouval, H. Z., Perrone M. P. (1995) Post-Hebbian learning rules. In: M. A. Arbib (ed.) The handbook of brain theory and neural networks.
Cambridge: The MIT Press (pp. 745-748)
Silby, R. , Mcfarland, D. (1974) A state-space approach to motivation. In: McFarland, D.(ed.) Motivational control systems analysis.
Academic Press, London
Silk, J. B. (1987) Social behavior in evolutionary perspective. In: B. B. Smuts, D. L. Cheney, R. M. Seyfarth, R. W.Wrangham, Th. T.
Struhsaker (Eds), Primate societies. Chicago: The University of Chicago Press (pp.318-329)
Sillito, A. M., Murphy, P. C. (1987), The cholinergic modulation of cortical funktion. In: E. G. Jones, A. Peter (Eds) The cerebral cortex, Vol
6. New York: Plenum Press
Smuts, B.B., Cheney, D. L., Seyfarth, R.M., Wrangham, R.W., Struhsaker, Th. T. (1987). Primate societies. Chicago: The University of
Chicago Press.
Sparenborg, S., Gabriel, M. (1990). Neuronal encoding of conditional stimulus duration in the Cingulate Cortex and the Limbic Thalamus of
rabbits. Behav Neurosci, 104, 919-933.
Spitz, R. A. (1960): The first year of life. International Universities Press, New York
Thorndike, E. L. (1931) Human learning. Cambridge: Massachusetts Institute of Technology Press
Toates, F. M. , Birke, L. I. A (1982) Motivation: A new perspective on some old ideas. In: P. P. Bateson, P. H. Klopfer (eds) Perspectives in
Ethology 5. Plenum Press, New York, 191-241
Tocco, G., Devgan, K. K., Hauge, S. A., Weiss, C., Baudry, M., Thomson, R. F. (1991). Classical conditioning selectively increases
AMPA/Quisqualate receptor binding in rabbit Hippocampus. Brain Res, 599, 331-336.
Tolman, E.C. (1932) Purposive behavior in animals and men. New York: Century
Trivers, R.L. (1985). Social evolution. Menlo Park (California): Benjamin Cummings.
Vanden Berghe, J., Wouters, J. (1998) Adaptive noise canceller for hearing aids using two nearby microphones. J. Acoust. Soc. Am. 103,
3621-3626
Varju D. (1990) A Note on the reafference principle. Biol. Cybern. 63, 315-323
Velden, M. (1982). Die Signalentdeckungstheorie in der Psychologie. Stuttgart usw.: Kohlhammer
Walter, W. G. (1961) Das lebende Gehirn. Berlin
Yeo, C. H. (1991). Cerebellum and classical conditioning of motor responses. Ann N Y Acad Sci, 627, 292-304
Zippelius, H. M. (1992). Die vermessene Theorie. Braunschweig: Vieweg
4
Document
Kategorie
Seele and Geist
Seitenansichten
13
Dateigröße
524 KB
Tags
1/--Seiten
melden