Выбрать главу

Частотный словарь, как правило, представляет собой список слов, упорядоченных от частых слов к редким. Если мы проанализируем, что это за слова, то увидим достаточно любопытную закономерность. Первые 50 самых частых слов в любом частотном словаре — это слова неполнозначные.

Если взять классический текст на русском языке, допустим текст "Капитанской дочки" Пушкина, и, руководствуясь частотным словарем языка Пушкина, 50 самых частых слов в этом тексте пометить, то окажется, что мы тем самым пометили почти половину всех словоупотреблений (а если точно — 42,5%).

Конечно, иностранец, выучивший эти 50 самых частых слов, понять текст "Капитанской дочки" не сможет. Потому что вот какие слова в среднем в текстах Пушкина входят в первые 50 самых частых:

и, в, я, он, не, быть, на, с, что (союз, местоимение, частица), ты, мой, она, свой, но, к, весь, они, как (наречие, союз), тот, мы, о (предлог), вы, а, за, это, из, от, по, же (частица, союз), у, ли, один, который, бы, сказать, мочь (глагол), наш, твой, ни, для, так (частица, наречие, союз), себя, или, ваш, день, знать (глагол), еще, где, да, то (частица, союз, наречие).

И все же один вывод даже из этого списка можно сделать: по крайней мере, эти слова иностранцу имеет смысл просто выучить, чтобы не открывать так часто двуязычный словарь.

Среди следующих 50 слов, расположенных по убыванию частоты употребления, полнозначных слов будет больше. Но, поскольку полнозначные слова повторяются во много раз реже, нежели служебные, по мере продвижения от более частых слов к менее частым "покрытие" текста, т. е. число помеченных слов, будет расти все медленнее и медленнее.

Например, если рассмотреть все тексты Пушкина, вместе взятые, то, чтобы пометить в качестве "известных" около 60% всех словоупотреблений, придется взять уже 460 самых частых слов, а чтобы пометить как якобы "известные" около 70% словоупотреблений, потребуется уже 1022 самых частых слова.

Приведенные данные не являются феноменом именно пушкинских текстов. В среднем в любом языке, независимо от характера текста, сравнительно небольшая группа наиболее частых слов соответствует очень значительному числу словоупотреблений. Знание примерно 2500 наиболее частых слов позволяет считать "известными" примерно 70–80% всех словоупотреблений.

Таково типичное отношение между словником текста и текстом как линейной последовательностью слов. На этом свойстве текста основана идея рациональной минимизации учебного словаря. Что это значит? Во всех случаях, когда объем осваиваемого словаря неродного языка должен быть заведомо ограничен, имеет смысл включать в него прежде всего наиболее частые слова.

Однако словник — это всего лишь список слов, а слова многозначны. Это одна сторона дела.

С текстом тоже все обстоит не так просто. Текст действительно произносится и записывается как линейная последовательность составляющих его слов. Но это отнюдь не значит, что связный текст представляет собой линейную последовательность слов и связей между ними!

Собственно, вы это знаете еще из уроков русского языка в средней школе. Точнее сказать, вы это успели забыть после уроков в средней школе. Потому что почти все, кто изучает иностранный язык в высшем учебном заведении, совершают одну и ту же ошибку: пытаются читать и переводить текст линейно, слева направо.

Как если бы пример с "глокой куздрой" был прочно и навсегда забыт. А ведь он так поучителен! Ибо структура этой фразы проясняется только после многократного чтения с возвратами, прикидками и проверками разных гипотез о том, что бы могла значить та или иная морфема — ведь полнозначных слов в этой фразе нет. Какая уж тут линейность!

И все–таки имеет смысл выучить в качестве опорного словаря–минимума именно частые слова. Поскольку применительно к тексту в целом тогда и будет эффективным применение метода "глокой куздры".

Иначе говоря, здесь будет эффективно работать стратегия понимания текста как целого, "прошитого" разнообразными связями между составляющими его элементами.

Предлагаю вам в качестве экспериментального задания попытаться понять приведенный ниже текст "Случай с Оливером". Текст этот построен по принципу "глокой куздры", но с учетом "знания" 2500 самых частых русских слов. В 2500 самых частых входят лошадь, ехать, результат и прочие слова, которые в данном тексте присутствуют в своем, так сказать, натуральном облике. "Самые частые слова" определялись по данным частотного словаря Э. Штейнфельдт (1963). Слова более редкие заменены на квазислова с сохранением всех грамматических показателей, которые они имели в оригинальном тексте.