И все же буквы распределены по гнездам наборной кассы грубо и приблизительно, так как соотношение их численности не всегда совпадает с настоящим положением вещей. «Не только отдельные виды литературы, — писал Н.Н. Проскурнин в статье «Подсчеты частоты литер и комплектовка шрифта», — но даже стиль отдельных авторов требуют другого соотношения литер, чем то, которое предусматривает стандартная комплектовка, не говоря уже о таких чисто случайных моментах, когда, например, собственные имена, встречающиеся в каком-либо романе, очень часто повторяются, что требует, прежде всего, большого количества определенных прописных букв» [90, с. 76].
Сборник «Письменность и революция», в котором появилась указанная статья, вышел более сорока лет назад, задолго до изобретения быстродействующих электронно-вычислительных машин, которые могли бы произвести более точные подсчеты. Но весьма характерно, что к тем же, примерно, выводам приходят и математики, пользующиеся современной вычислительной техникой.
Так, авторы книги «Вероятность и информация» А. М. и И.М. Ягломы, касаясь вопроса о вероятности появления различных букв в русском тексте, пишут: «Строго говоря, эти частоты могут несколько зависеть от характера текста (например, в учебнике по высшей математике частота обычно очень редкой буквы „ф“ будет заметно выше средней из-за частого повторения слов „функция“, „дифференциал“, „коэффициент“ и некоторых других; еще больше отклонения от нормы в частоте употребления отдельных букв можно наблюдать в некоторых художественных произведениях, особенно в стихах)... Как правило, однако, подобные отклонения будут все же сравнительно небольшими и в первом приближении ими можно пренебречь» [139, с. 237–238]. По мнению математиков, любой отрывок напечатанного текста по своим статистическим закономерностям приближается к «среднему языку» [138, с. 100].
Проанализировав разнообразные тексты, взятые из самых различных источников (стихи, проза, научная литература и пр.), математики не просто на глазок, а с помощью точных средств и методов определили, насколько же «нужна» каждая буква в отдельности.
Вглядитесь в приведенный ниже ряд букв:
о е а и т н с р в л к м д п у я ы з ь ъ б г ч й х ж ю ш ц щ э ф
Здесь перед нами тридцать две буквы русского алфавита. Но впечатление такое, словно все они взбунтовались и сорвались со своих привычных мест. Ничего подобного! Буквы стоят в безусловном порядке, но не в той последовательности, в какой мы привыкли их видеть в букварях и словарях. Наиболее «нужные» выдвинуты вперед, а те, которые реже встречаются в печати, потеснились на задние места. Этот порядок обусловлен относительной частотой появления в тексте каждой отдельной буквы. Например, для буквы «о» относительная частота составляет (в условном исчислении) 0,090, а для буквы «ф» — 0,002, то есть первая буква встречается в тексте в сорок пять раз чаще, чем последняя. Одинаково часто встречаются пары букв «а» и «и» (у них одинаковые значения частот), «т» и «н», «ы» и «з», «ь» и «б», «ю» и «ш», «щ» и «э», но букву «р» мы найдем в печати в четыре раза чаще, чем «й», а букву «ж» в пять раз реже, чем «л», и т.д.
Дальнейшие подсчеты показали, что четыре самые «нужные» буквы — «о», «е», «а», «и» — составляют около одной трети (33,9%) русского печатного текста. Следующую треть (33,6%) образуют шесть букв — «н», «т», «р», «в», «с», «д». И лишь последняя треть (32,5%) приходится на долю всех остальных двадцати двух букв.
Вместе с тем ученые обнаружили парадоксальное, на первый взгляд, явление: чем «нужнее» или употребительнее буква, тем меньше информации она содержит. В частности, информационная насыщенность каждой буквы первой группы почти в два раза ниже, чем буквы третьей группы (1,97 и 3,79 бита). В практическом отношении это означает, что реконструкция текстов с опорой на буквы третьей группы быстрее и точнее, чем с опорой на буквы двух первых групп. На основании всех указанных подсчетов профессор Г.Н. Кечхуашвили пришел к интересному выводу, что оставшиеся в сокращенном или искаженном тексте буквы в силу своих статистических связей сами как бы диктуют человеку, имеющему опыт чтения на данном языке, чего и где недостает [55, с. 34].
Становится все яснее, что мы ничуть не отвлеклись в сторону, занявшись вопросом о вероятности появления отдельных букв в тексте. Закономерность, установленная для «правильных» букв алфавита, как нетрудно убедиться, действительна и в отношении «неправильных» букв, то есть опечаток. Согласившись с заключением исследователей, что линотипист делает в среднем пять процентов ошибок (к количеству набранных строк), логично предположить, что «жертвой» неправильных действий оператора скорее будет расхожая буква «о», чем редкая «ф». Срывы и отказы в действиях оператора несомненно корреспондируют с частотой употребления отдельных букв в печати, хотя нельзя забывать, конечно, и о таких факторах, как расположение букв на клавиатуре наборной машины (и в гнездах кассы) и умение быстро распознавать буквы в оригинале.