Основы дрессировки
Шрифт:
Есть ещё вариант: нет ни наказания, ни поощрения — этот случай сам по себе эмоционально не окрашен, всё зависит от контекста. В одном случае бездействие дрессировщика воспринимается собакой как поощрение, в другом — как наказание. Например, собака, уже наученная идти «рядом», стремясь на прогулку, натягивает поводок. Дрессировщик не реагирует. Тем самым такое поведение закрепляется. Противоположный пример: собака лает, требуя у дрессировщика лакомство. Дрессировщик не реагирует. Такое поведение постепенно исчезает.
Обобщая, можно сказать: что бы ни делал дрессировщик во время дрессировки, его поведение можно описать одним из пяти вышеперечисленных вариантов. И все они для собаки эмоционально окрашены, все воздействуют на её поведение. Вывод о необходимости тщательного анализа и планирования выполнения дрессировочных приёмов предоставляю сделать читателю.
Длительность поощрения и наказания, их временная продолжительность могут вызвать проблемы во время дрессировки. Например: дрессировщик
Как было бы хорошо, если бы существовало моментальное, не имеющее протяжённости во времени поощрение! Во-первых, точное совпадение во времени с подкрепляемым поведением перестало бы быть проблемой (а такая проблема, и очень серьёзная есть — это подтвердит любой дрессировщик). Во-вторых, не имея протяжённости во времени, такое поощрение имело бы только значение начала поощрения, то есть, значение, вызывающее положительную эмоцию, и не имело бы значения отмены поощрения, вызывающего отрицательную эмоцию.
В действительности все не так, как на самом деле.
Оказывается, такое поощрение существует. Это условное поощрение, — условный раздражитель, которому с помощью образования условного рефлекса, придано значение поощрения. Более того, поскольку это условное поощрение представляет собой короткий (значительно более краткий чем то поощрение, на которое он вырабатывался) сигнал, оказалось возможным придать ему значение начала поощрения. (Слукавил я, выходит, когда в полемическом задоре убеждал читателей, что условные рефлексы практически не используются в дрессировке. Ещё как используются, — для выработки условных подкреплений.). Итак, условные рефлексы используются в дрессировке активно, — для того чтобы связать произвольный и первоначально индифферентный (ничего не значащий) для собаки стимул с положительной или отрицательной эмоцией, превратив его тем самым в условное подкрепление. Англоязычные дрессировщики называют условное подкрепление специально связанное с тем или иным безусловным «бридж-сигнал», то есть сигнал-мостик. Название, весьма точно отражающее содержание понятия. На понятии условного подкрепления мы остановимся поподробнее, проиллюстрировав его примером из кликер-тренинга, одной из методик оперантной дрессировки (мотивированной дрессировки, обуславливания операнта, кондиционирования операнта и т. д., терминам несть числа). В начале дрессировки тренеры, применяющие кликер (это такая маленькая, щёлкающая при нажатии коробочка) проводят так называемую «презентацию кликера». Основой такой презентации может быть начало любого безусловного поощрения, например игры с апортиком или кормления, выдача лакомства. Дрессировщик щёлкает кликером и тут же даёт собаке лакомство (бросает апортик). И так 30—40 раз. В конце занятия вы заметите: услышав щелчок, собака активно ищет награду. Следующее занятие нужно проводить в другое время дня и в другой обстановке. Задача состоит в том, чтобы собака твёрдо усвоила: щелчок кликера, а не какая-либо обстановка или время суток, предвосхищает награду. Точно так же можно «представить» и свисток и просто короткое слово. Более того, слово в качестве условного подкрепления имеет то преимущество, что обладает интонацией. А тон (высота звука) для собаки является релизером, то есть врождённо понятным сигналом. Высокий (но не на уровне визга) тон — положительная эмоция, так мать поощряет щенков, низкий тон — отрицательная эмоция, угроза. Таким образом, слово — подкрепление условное, но, частично и безусловное (имеет безусловную компоненту). Все дрессировщики этим интуитивно, по аналогии с человеческим общением, или осознано пользуются в той или иной мере.
Точно так же, с помощью образования условного рефлекса, можно связать с каким-нибудь сигналом (словом) и начало наказания (пример: команда «Фу»), и окончание наказания, и окончание поощрения, и даже ситуацию «ничего не происходит», в значении «следует продолжать попытки». С этим значением слова «ищи» мы столкнёмся в ближайшем будущем при изучении этапов дрессировки собаки-детектора.
Кликер-дрессировщики в своей практике избегают прямых наказаний, предпочитая им отмену поощрений или непредоставление поощрений. Они справедливо утверждают, что как только собака понимает суть метода: отказ в поощрении мотивирует её, чтобы пробовать кое-что еще, она охотно экспериментирует с новым поведением. Однако, если неправильный выбор наказан, собака, из-за страха получения нового наказания, может начать сомневаться, стоит ли предлагать другое поведение. «Игнорируйте нежелательное поведение в максимально возможной степени. Каждый раз, когда Вы укрепляете желательное поведение, это походит на добавление денег к счету в банке. Чем больше денег на счету, тем более сильны отношения с вашей собакой. Положительное наказание — даже если оно эффективно — удаляет деньги из этого счета в банке, и это ослабляет отношения.
Если Вы решились использовать физическое наказание, посмотрите на эффект. Действительно ли поведение не только временно приостанавливается, но и случается менее часто? В противном случае это не исправление поведения путём наказания — это злоупотребление властью» [4] .
Остаётся сказать о том, что часто называют «расписанием подкрепления». Снова позволю себе обширную цитату, на этот раз из Stacy Braclay-Scheck «Как учатся люди и собаки»: «Расписание подкрепления определяет, как часто поведение надо подкреплять. Есть 5 видов расписания: с фиксированным интервалом (ФИ), фиксированным отношением (ФО), изменяемым интервалом (ИИ), изменяемым отношением (ИО) и произвольное (ПР).
4
Подсказки для успеха. Melissa Alexander
ФИ — фиксированный интервал означает, что подкрепление дается после фиксированного интервала времени. Например, каждые 5 минут. Пример: оплата работы — через каждые 2 недели я получаю чек (т. е. условное поощрение). ИИ — изменяемый интервал означает, что подкрепление дается после варьируемого интервала времени. Иногда это 5 минут, иногда 3, иногда 7 или 1. Моя электронная почта работает в этом режиме — с изменяемым интервалом времени я получаю письма (а для меня это положительные эмоции!). ФО — фиксированное отношение означает, что поведение будет вознаграждаться один раз за N исполнений. Фиксированное отношение 1:3 означает, что каждое третье поведение будет вознаграждено. Этот вид отношения имеет тенденцию ухудшать исполнение поведения у некоторых животных и людей, так как они знают, что первые 2 попытки не будут вознаграждаться, а третья будет вознаграждена несмотря ни на что. Фиксированное отношение 1:1 означает, что каждое правильное исполнение поведения будет вознаграждено. ИО — изменяемое отношение означает, что вознаграждение будет выдаваться, основываясь на каком-то среднем количестве правильных исполнений поведения. Изменяемое отношение 1:3 означает, что в среднем одна из трех попыток будет вознаграждена. Поощряться может первая попытка, а может и третья. Это отношение часто называется изменяемое расписание подкреплений. Произвольное расписание означает, что нет никакой очевидной связи между поведением и его последствиями. По этому принципу работает Фортуна».
На этапе научения (отбора или формирования поведенческого акта) поощряться должно каждое «правильное» действие собаки. Так собака быстрее поймёт, что от неё требуется. В то же время на этапе автоматизации отобранного поведенческого акта (выработка навыка) подкреплять его выполнение лучше с изменяемым расписанием подкреплений. Закреплённый таким образом навык угашается в отсутствие подкрепления значительно медленнее, чем закреплённый при 100% подкреплении. Более того, творчески используемое изменяемое расписание подкреплений позволяет довести в процессе выработки навыка составляющий его основу поведенческий акт до совершенства, подкрепляя всё более удачные его выполнения (правда, это уже будет не совсем классическое изменяемое расписание).
Прочное закрепление навыка при изменяемом расписании подкрепления можно пояснить с помощью аналогии. Если вы бросили монетку в автомат, продающий газеты, и ничего не получили взамен, вряд ли у вас возникнет желание бросить ещё одну в надежде, что на этот раз автомат сработает. Скорее вы, зная принцип работы этого автомата: газета в обмен на деньги, сочтёте его неисправным. Однако в игральный автомат вы будете бросать монету за монетой, — вы ведь и не ожидаете мгновенного результата. Так и собака будет выполнять навык раз за разом без поощрения, зная, что рано или поздно она его получит.
Ну, хорошо, сказал рассудительный бас.
— А что тебе хочется? Это даже как-то непостижимо. Чего может хотеться, если не хочется работать?
Говоря о подкреплении, нельзя не остановиться на одной интересной (и неожиданной) особенности интринсивного поведения. Оказывается, если животное вознаграждается за нечто, что оно делает или сделало по собственному желанию, то такое вознаграждение будет способствовать ослаблению интринсивной мотивации. И наоборот, если животное не вознаграждается за неинтересную, предпринятую им только ради вознаграждения деятельность, то интринсивная мотивация к ней может усилиться. Из этого следуют два вывода. Первый: если формируемый навык является разновидностью игрового поведения, поощрять его чем-либо «посторонним» для этого поведения (например, лакомством) не следует.