Мозг и душа. Как нервная деятельность формирует наш внутренний мир
Шрифт:
Обе разновидности ассоциативного обучения связаны с будущим. Мы выучиваем определенные сигналы, которые говорят нам о том, что случится в будущем. Мы выучиваем определенные действия, которые влияют на то, что случится в будущем. При этом, разумеется, будущее предсказывают не сами сигналы. Предсказания делает наш мозг. Мы можем увидеть, как он это делает, непосредственно исследуя активность нервных клеток. [96]
Нервные клетки, в сущности, представляют собой сигнальные устройства. Информация передается из одного конца клетки в другой посредством электричества, примерно так же, как по телефонному проводу (см. главу 5). [97] Но что происходит, когда сигнал достигает конца клетки? Похожая проблема есть и с телефоном. Между ухом и телефоном нет электрической связи. Их разделяет промежуток. В случае с телефоном эта проблема решается посредством молекул воздуха, с помощью которых передается сигнал. В трубке есть устройство, которое заставляет молекулы воздуха колебаться, эти колебания преодолевают разделяющий трубку и ухо промежуток, и ухо улавливает их. В случае с нервными клетками механизм, обеспечивающий
96
Важнейшие достижения в области изучения механизмов работы мозга были сделаны благодаря методам, позволяющим отслеживать активность отдельных нервных клеток. Дэвид Хьюбел (David Hubel) и Торстен Визел (Torsten Wiesel) в 1958 году впервые показали, что клетки зрительной коры настроены таким образом, чтобы реагировать на специфические зрительные раздражители (в 1981 году они получили за это Нобелевскую премию). Например, некоторые клетки сильно реагируют на вертикальные линии, но совершенно не реагируют на горизонтальные. — Примеч. авт.
97
Между распространением сигналов по телефонному проводу и по отростку нейрона немало общего, но есть и принципиальная разница: в телефонном проводе электрический ток (то есть заряженные частицы) движется вдоль провода и сам передает сигнал, а в нейроне электрический ток движется снаружи внутрь клетки, и сигнал передается не самим током, а возбуждением клеточной мембраны (если какой-то из ее участков начинает пропускать внутрь заряженные частицы, это вызывает возбуждение соседних участков, которые тоже начинают пропускать ток, и возбуждение распространяется по мембране). Именно поэтому импульс движется по нервному волокну намного медленнее, чем электрический ток по проводам. — Примеч. перев.
Рис. 4.3. Синапс.
Место передачи сигнала от одной нервной клетки к другой.
1. Нервный импульс (потенциал действия) достигает пресинаптической мембраны на конце одной клетки.
2. Из-за этого пузырьки подплывают к мембране и выделяют содержащийся в них нейромедиатор в синаптическую щель.
3. Молекулы нейромедиатора достигают рецепторов, расположенных на постсинаптической мембране, принадлежащей второй клетке. Если это возбуждающий синапс и сигнал окажется достаточно сильным, это может запустить нервный импульс во второй клетке. Если это тормозной синапс, то постсинаптическая клетка станет менее активной. Однако каждый нейрон обычно связан синапсами со многими другими, поэтому что произойдет во второй клетке, зависит от суммарного эффекта воздействия всех ее синапсов. Впоследствии нейротрансмиттеры снова поглощаются пресинаптической мембраной, и весь цикл может повториться снова.
К одному из таких типов относятся очень важные клетки выделяющие нейромедиатор допамин. Эти клетки часто называют клетками награды (reward cells), потому что их активность увеличивается после того, как животное получает пищу или питье. Крыса будет охотно нажимать на рычажок, вызывающий стимуляцию этих клеток, и предпочтет эту стимуляцию даже еде или сексу. Это так называемая самостимуляция. [98]
Вольфрам Шульц отслеживал активность этих клеток в эксперименте на формирование условного рефлекса и обнаружил, что на самом деле это не клетки награды. В этом эксперименте через одну секунду после постороннего, как и в опытах Павлова, сигнала (световой вспышки) обезьяне в рот впрыскивали порцию фруктового сока. Вначале допаминовые нервные клетки играли роль клеток награды, реагируя на поступление сока, но по окончании обучения они перестали активироваться в момент вспрыскивания сока. Вместо этого они теперь активировались сразу после того, как обезьяна видела вспышку, за секунду до поступления сока. Судя по всему, возбуждение допаминовых клеток служило сигналом того, что скоро должен быть получен сок. Они не реагировали на награду, а предсказывали ее получение.
98
В романе Майкла Крайтона "Человек-компьютер" (The Terminal Man) человеку вживляют электроды в центр удовольствия в мозгу, что приводит к весьма печальным последствиям. — Примеч. авт.
Связь работы этих клеток с предсказанием проявлялась еще нагляднее, когда обезьяна видела вспышку, но сока после этого не получала. В тот момент, когда должен был поступить сок, активность допаминовых нервных клеток снижалась. Мозг обезьяны предсказывал, когда именно можно ожидать награды в виде сока, и снижение активности допаминовых клеток сигнализировало, что награда не получена.
Рис. 4.4. Активность допаминовых нейронов отражает ошибку в предсказании награды.
Обезьян обучали ассоциировать световую вспышку (сигнал) с фруктовым соком, вспрыскиваемым в рот через секунду (награда), измеряя при этом активность допаминовых нейронов.
(a) Сигнала не поступало, и обезьяна не знала, когда получит награду. Непредвиденная награда вызывает повышение активности.
(b) Обезьяна знала, когда получит награду. Получение награды не вызывает изменений активности. Но обезьяна не знала, когда поступит сигнал. Непредвиденный сигнал, предвещающий награду, вызывает повышение активности.
(c)
Активность этих клеток не служит сигналом награды. Не служит она и сигналом того, что награда скоро будет получена. Активность этих клеток сообщает нам об ошибке в нашем предсказании награды. Если сок поступает тогда, когда мы ожидаем его поступления, значит, никакой ошибки в нашем предсказании нет, и допаминовые клетки не посылают сигнала. Если сок поступает неожиданно, значит, награда превзошла наши ожидания, и эти клетки посылают положительный сигнал. Если же сок не поступает, когда мы его ожидаем, значит, награда не оправдала наших ожиданий, и допаминовые клетки посылают отрицательный сигнал. Эти сигналы, сообщающие нам об ошибках в наших собственных предсказаниях, позволяют нам изучать окружающий мир, не нуждаясь в учителе. Если наши предсказания о чем-то в окружающем мире ошибочны, это означает, что нам нужно что-то сделать, чтобы улучшить качество своих предсказаний.
Еще до того, как выяснилось, что активность допаминовых нервных клеток служит сигналом ошибки в наших предсказаниях, математики разработали алгоритмы, позволяющие машинам обучаться похожим способом.
Для понимания механизмов подобного ассоциативного обучения важна концепция "ценности". Безусловный раздражитель в экспериментах Павлова обладает внутренней ценностью – положительной в случае еды (награда) и отрицательной в случае электрического удара (наказание). Этот ассоциативный механизм работает благодаря тому, что всякий раз, когда мы получаем награду, что угодно, предшествовавшее этой награде, приобретает дополнительную ценность. Даже нечто случившееся задолго до награды становится хотя бы чуть-чуть более ценным. Некоторые из таких вещей никак не связаны с наградой и предшествовали ей по чистой случайности. Но тогда, вероятнее всего, когда что-то подобное произойдет в следующий раз, за ним не последует награды. Это вызовет поступление сигнала об ошибке. Ожидаемая награда не была получена, и ценность не связанного с ней события будет снижена. Но когда происходит нечто, позволяющее правильно предсказать получение награды, сигнал об ошибке не поступает, и такое событие приобретает с каждым разом все большую ценность. Тем самым наш мозг учится присваивать определенную ценность всем событиям, объектам и местам в окружающем нас мире. Многие из них при этом остаются для нас безразличными, но многие приобретают высокую или низкую ценность.
Мы испытываем ощущения, отражающие эту карту ценностей, заключенную в нашем мозгу, когда возвращаемся из долгой заграничной поездки: мы чувствуем прилив эмоций, нарастающий по мере того, как улицы, по которым мы движемся, становятся все более знакомыми.
Стремясь к тому, что обладает высокой ценностью, и избегая того, что обладает низкой ценностью, мы можем получать награды и избегать наказаний. Но этот механизм ассоциативного обучения говорит нам только о том, какие вещи обладают высокой ценностью. Он не говорит нам, как добиться этих ценных вещей. Кошки Торндайка, когда их впервые сажали в клетку-головоломку, знали, что рыба обладает высокой ценностью, но при этом не знали, что сделать, чтобы до нее добраться.
Механизм, позволяющий научиться, что делать, чтобы получать награды (или избегать наказаний), тоже существует. Его называют алгоритмом временных различий. Используя этот метод, машина может определить наилучшую последовательность действий, которые требуется совершить, чтобы получить что-либо ценное. Этот метод известен также как "модель актера и критика". Одна часть программы, "актер", решает, какое следующее действие предпринять. Другая часть, "критик", оценивает, насколько удачным было это действие. Критик сообщает актеру обо всех ошибках, допущенных в предсказаниях. Удачным действием считается такое, после которого наше положение сейчас оказывается лучше, чем было до того. Критик всякий раз сообщает о происходящих изменениях ценности (отсюда "временные различия"). Ценность положения повышается после действий, которые приближают нас к награде. Это позволяет нам искать пути, ведущие к получению награды. Самой высокой ценностью обладает место возле самой награды. По мере удаления от награды ценность уменьшается. Двигаясь в сторону мест с более высокой ценностью, мы рано или поздно доберемся до награды. При этом, разумеется, в окружающем мире нет никаких отметок, указывающих ценность того или иного места. Эти отметки существуют лишь во внутренней модели мира, имеющейся у нас в мозгу и построенной благодаря опыту и обучению.
Рис. 4.5. Мозг представляет окружающий мир как пространство возможных наград (reward space).
Верхний рисунок: Карта конференц-центра. Составленная моим мозгом карта конференц-центра как пространства потенциальных наград.
Нижний рисунок: Я прибыл в незнакомый конференц-центр без карты. Стол с напитками скрыт за несколькими перегородками. Я могу найти его только методом проб и ошибок. После того, как я несколько раз нахожу стол с напитками, мой мозг создает карту конференц-центра как пространства потенциальных наград. Окраска отражает ценность (чем светлее, тем выше ценность). Если я буду двигаться в сторону участков, окрашенных светлее, я рано или поздно доберусь до стола с напитками. Но я не знаю, что руководствуюсь этой картой. Я просто иду к столу с напитками.
Вольфрам Шульц и специалисты по вычислительным системам Питер Даян и Рид Монтегю показали, что допаминовые нервные клетки ведут себя именно так, как следовало бы ожидать, исходя из того, что мозг обезьяны пользуется тем же методом обучения, что и машина, использующая алгоритм временных различий. Активность допаминовых клеток и отражает те ошибки в предсказаниях, которые позволяют обезьяне обучаться, не имея учителя. Этот механизм обучения работает отнюдь не только в нервных клетках обезьян. Обучением путем предсказаний можно объяснить также поведение пчел, которые ищут лучшие цветы, и людей, играющих в азартные игры. [99] В обоих случаях обучение путем предсказаний формирует карту возможных действий, на которой отмечено, какие действия с наибольшей вероятностью приведут к награде.
99
Компьютерная программа на основе алгоритма BP может научиться играть в нарды не хуже самых лучших игроков в эту игру. — Примеч. авт.