Выбрать главу

Судя по масштабу и сложности представленных разработок, наши участники отнеслись к состязанию более чем серьезно. Некоторые кандидаты объединялись в команду и подавали коллективную заявку. Некоторые писали собственные компьютерные программы для проверки своих идей и тестировали их на симуляторах, имитирующих нашего «многорукого бандита». Кто-то даже самостоятельно организовал тренировочный мини-турнир, выясняя, какие стратегии действуют лучше. Среди разработок попадались сложнейшие, использующие самые передовые технологии – от нейронных сетей до генетических алгоритмов. Мы с Люком глазам не верили, вникая в иные особо трудоемкие проекты. Кажется, наше состязание можно причислить к самым высокорентабельным из когда-либо применявшихся способов проведения исследований. За какие-то 10 000 евро мы сумели привлечь сотни умнейших и сверхизобретательных исследователей со всего мира, которые неделями, а то и месяцами корпели над волнующей нас загадкой оптимального пути научения.

Теперь нам предстояло изучить разработки конкурсантов и понять, какие стратегии преуспели и почему. На первом этапе турнира (круговое состязание) стратегия могла в принципе получить от 0 (если проигрывала в каждом поединке) до 1 балла (если выигрывала все). В итоге счет варьировал от 0,02 до 0,89, что говорило о широком диапазоне эффективности стратегий. Нас такой разброс в показателях очень обрадовал: он означал, что мы не подняли планку сложности настолько высоко, что с заданием не справился почти никто (так называемый эффект пола), но и не опустили ее настолько низко, что одинаково легко справились все (эффект потолка). Разброс в результатах сам по себе подтверждал, что структуру состязания мы наметили верно. И, что гораздо важнее, вариативность позволяла нам объективно оценить и сравнить разработки. Стратегии можно было классифицировать в соответствии с их свойствами: насколько они жестки или гибки, какой объем подражания подразумевают, отслеживают ли степень изменений окружающей среды и приспосабливают ли к ним поведение и т. д. После этого нам оставалось подвергнуть собранный материал статистическому анализу и выяснить, какие из этих свойств обеспечивают стратегии успех.

Первое неожиданное открытие, которое мы сделали, – оказывается, можно «заучиться». Как показал турнир, посвящать много времени научению совсем не эффективно. Более того, мы установили явную обратную зависимость между долей, приходящейся в стратегии на ходы НОВАТОРСТВОВАТЬ и НАБЛЮДАТЬ по сравнению с ходом ПРИМЕНЯТЬ, и успехами данной стратегии в состязании. В лидирующих по эффективности стратегиях научению уделялась лишь небольшая часть времени (5–10 %), а все остальное отводилось на то, чтобы «монетизировать» накопленный опыт, разыгрывая ПРИМЕНЯТЬ. Приобретать приспособленность напрямую стратегия может только разыгрывая ПРИМЕНЯТЬ. А значит, каждая попытка усвоить новое поведение – путем НОВАТОРСТВА или путем НАБЛЮДЕНИЯ – отнимает шанс на получение отдачи, который дало бы разыгрывание варианта ПРИМЕНЯТЬ. Таким образом, чтобы пробиться в жизни, нужно поскорее что-то усвоить, а затем усвоенное ПРИМЕНЯТЬ, ПРИМЕНЯТЬ и ПРИМЕНЯТЬ, вплоть до самой смерти. Отрезвляющий урок для таких людей, как я, у которых школа или университет – второй дом.

Если все же прибегать к научению, то лучше всего, как выяснилось, использовать подражание. Мы выявили устойчивую прямую связь между долей, отводившейся в стратегии ходам НАБЛЮДАТЬ по сравнению с НОВАТОРСТВОВАТЬ, и успехами этой стратегии в состязании. Самые успешные стратегии разыгрывали ходы с научением не очень часто, но, когда делали это, почти всегда пользовались вариантом НАБЛЮДАТЬ. Однако за нехитрой на первый взгляд корреляцией между подражанием и успехом скрывалась более сложная зависимость, обнаруживаемая только при внимательном анализе. В целом самые успешные стратегии, прошедшие в меле второго этапа, объединяла общая закономерность: чем больше при научении использовалось НАБЛЮДАТЬ по сравнению с НОВАТОРСТВОВАТЬ, тем выше были результаты. При этом у стратегий, что выступили похуже, мы отмечали противоположное – чем больше доля подражания, тем ниже результаты. Из этого мы узнали кое-что весьма интересное: подражание не всегда благо. Подражание окупается, только если использовать его эффективно.