Выбрать главу

Только 20% американских мужчин имеют рост более 6 футов и еще 20% - менее 5 футов 7 дюймов. Средний показатель, или среднее значение, распределения составляет 5 футов 9½ дюймов, а стандартное отклонение - мера изменчивости - 2¾ дюйма. Эти два параметра говорят вам все, что нужно знать о распределении роста в данной популяции. С помощью таблиц распределения вы можете оценить, какая часть населения будет выше или ниже определенного роста. Две трети мужчин находятся в пределах одного стандартного отклонения от среднего значения - это свойство нормального распределения. Число мужчин ростом выше 6 футов 4 дюйма или ниже 5 футов 3 дюймов слишком мало, чтобы выборка, проведенная Бюро переписи населения США, могла дать надежную оценку доли населения. Эти крайние значения представляют собой хвосты распределения. Если бы вы увидели человека ростом 11 футов 6 дюймов (а вы этого не сделаете), вы бы наблюдали событие со стандартным отклонением 25, такое же редкое, как наблюдение г-на Виниара за движением финансовых цен.

Но нормальное распределение было лишь самым распространенным из семейства статистических распределений, которые были разработаны в девятнадцатом веке. Русский статистик Ладислав Борткевич проанализировал распределение смертей от конских ударов в четырнадцати различных корпусах прусской армии за два десятилетия с 1875 по 1894 год. Как и предполагал Борткевич, он смог использовать распределение Пуассона - другую формулу, названную в честь французского математика Симеона-Дени Пуассона, - чтобы сопоставить общее число смертей. В среднем, в корпусе от ударов лошадей умирало 0,7 человек в год, и только один год из двух - не умирало. Исходя из знания численности корпуса, его анализ позволил Борткевичу предсказать частоту смертей по годам для каждого отдельного корпуса. Для многих студентов - включая авторов - подобные анализы стали судьбоносным откровением потенциала социальных наук. Казалось, что даже самые банальные человеческие дела могут быть рассмотрены с помощью научных методов; капризы греческих богов были укрощены.

Статистические распределения являются продуктом взаимодействия дедуктивных и индуктивных рассуждений. Методы дедукции описывают процесс, который приводит к появлению наблюдаемой переменной - рост американских мужчин, количество убитых прусских офицеров. Методы индукции изучают такие данные и формируют гипотезы о том, как эти данные были получены. Гипотеза может предсказывать распределение и подтверждаться наблюдением за ним, либо быть выведена после наблюдения за ним. В любом случае применимость анализа зависит от сохраняющейся валидности базовой модели.

Модель, использованная Борткевичем, потеряла актуальность после 1918 года. Разгромленная прусская армия исчезла, и если существует ее преемник - армия Федеративной Республики Германия, то эта армия больше не использует кавалерию, и ее офицеры вряд ли станут жертвами конных ударов. Возможно, те, кто подчеркивал капризы богов, все-таки были правы. Применимость моделей к человеческим делам более условна, более преходяща, чем их применимость к природным явлениям. Физики полагаются на стационарность - физические законы остаются неизменными век за веком. Экономические и социальные явления не являются такими же стационарными. Две великие войны двадцатого века изменили общество во многих отношениях, среди которых исчезновение прусских кавалерийских полков было лишь одним, причем не самым значительным. Эти фундаментальные изменения в мировой экономике представляют собой то, что экономисты называют сдвигом или структурным переломом.

Законы власти

Самым распространенным словом в английском языке является "the". В данной книге это слово используется 9742 раза и составляет около 7% от общего количества слов в книге. Второе по частоте употребления английское слово - 'of', за ним следует 'and'. Слова 'gadzooks', 'valetudinarian' и 'antidisestablishmentarianism', хотя и были приняты нашей системой проверки орфографии, не встречаются ни в этой книге, ни в какой-либо другой книге или статье, написанной кем-либо из нас.

Американский лингвист Джордж Ципф изучал частоту слов задолго до того, как такие задачи стали решать компьютеры, и сформулировал то, что известно как закон Ципфа. Если построить частоту слов на логарифмической шкале, то получится более или менее прямая линия с устойчивой зависимостью между популярностью слова и количеством слов с аналогичной популярностью. n-ое наиболее часто используемое слово встречается с частотой в 1/n раз большей, чем наиболее часто используемое слово. Количество слов не ограничивается числом в словаре Microsoft или даже в списках Оксфордского словаря английского языка . Существует множество слов , которые используются очень редко, например, каама, и каждый день изобретаются новые слова.