Выбрать главу

Вообще-то, вроде бы принято проверять сведения, позаимствованные из неверифицированных вторичных источников. Всё-таки, в сети можно отыскать не только разные по качеству результаты оцифровки, но и отсканированные страницы изданий всех упомянутых произведений. Похоже, что об этом нехитром научном правиле, труженики полунаучной организации НКРЯ[51] представления не имеют. Во всех случаях, занявшая минимум времени проверка, показала правильность исходного предположения об ошибках.

Как же так? Неужели разработчикам Национального корпуса русского языка[52] знание самого русского языка уже не требуется? Ведь с пониманием написанного у них явные проблемы. Слово “полба” прочитать могут, а вот понять, что оно означает — уже нет. Поскольку за пределами советского периода, с полбой оказались связаны куда более очевидные несуразности, чем слипшиеся слова:

• Левые щеки и полба у каждого были озарены розовым солнцем. [Андрей Вознесенский. На виртуальном ветру, 1998]

• В наших мечтах, в игре нашей фантазии мы легко создаем крошечных лилипутов или гигантов семи пядей полбу, но по законам действительности подобные существа невозможны. [Н. Н. Страхов. Мир как целое, 1872]

У Вознесенского в слове “поллба” потерялась “лишняя” буква и фраза сразу приобрела ярко выраженный эротический характер. А в работе Страхова даже предлог оказался иным — в оригинале “во лбу” (рис. 32).

При таком количестве ошибок, рассматривать статистические результаты или “точные числовые данные о том, как часто встречается определенное слово” — все эти проценты вхождений и прочие IPM — просто бессмысленно.

Рис. 32. Найди “полбу”. Страхов, Мир как целое, 1872. Фрагмент страницы[53].

Впрочем, не удалось бы количественно оценить использование слова “полба” в русском языке за указанный период, даже при полном отсутствии ошибок. К примеру, за филологию в корпусе отвечает целая докторская диссертация Ольги Михайловны Фрейденберг (восемь упоминаний полбы), а за всю биологию вместе с сельским хозяйством — статья Фляксбергера в научно-популярном журнале (одно упоминание). В результате, главным источником упоминания полбы в стране оказалась таки совсем не биология. Такая вот, не слишком пропорциональная доля в языке соответствующего периода. Для сравнения: в монографии Фляксбергера о пшенице, издания того же года, что и диссертация Фрейденберг, полба упоминается двести шестьдесят два раза. Как говорится, почувствуйте разницу!

Порадовало, что Алексей Николаевич Толстой использовал полбу в своём творчестве. Однако саму подборку текстов корпуса в жанре исторической прозы вряд ли можно назвать хоть сколько-нибудь представительной. К примеру, советская художественная литература о Средневековой Руси в Национальном корпусе отсутствует практически полностью[54]. В отличии от огромнейшего количества в нём мусорных, газетно-журнальных публикаций[55]. Не слишком представительно выглядит и то, что больше трети немалого объёма всего Национального корпуса составляет так называемый газетный подкорпус. При таком однобоком подходе, возможность “максимально полно отразить всё разнообразие русского языка” выглядит более чем сомнительно.

Очень забавны типично гуманитарные категории разметки в карточках изданий: “Размер аудитории большая”, “Размер аудитории очень большая”, “Размер аудитории личная”. Прямо как у африканских бушменов, у которых из числительных только — один и много.

Интересно, чем большая аудитория отличается от очень большой? И почему аудитория должна быть личной у дневника, изданного тиражом 2500 экз. в бумаге и лежащего в сети?

У советских, да и у современных российских печатных изданий, имеется замечательный критерий оценки величины аудитории — приводимый в выходных данных тираж. Если у научно-популярной энциклопедии “Жизнь растений” тираж составил 300 тысяч экземпляров, а у аналогичного переводного античного трактата за авторством Теофраста “Исследование о растениях” — три тысячи, то ответ на вопрос о сопоставимой величине аудитории этих изданий выглядит как-то более предметно.

В целом, непродолжительное знакомство с Сервисом НП НКРЯ оставило негативное впечатление. Этакие типовые российские, суверенные Information Technology. Корпус в значительной части сформирован из собранного поисковыми роботами интернет-мусора. Из-за перекосов в формировании и ошибок, недостоверен для статистических исследований в отношении редких слов. Недружественный интерфейс. Вместо поясняющей информации — рекламные тексты о представительности, сбалансированности и академической поддержке. Редкостное хамство в условиях использования и цитирования (особенно удивило требование “обязательная ссылка” на некую статью о корпусе[56]).

вернуться

51

Научная деятельность указана в регистрационных документах НП НКРЯ как дополнительная. В соответствии с действующим законодательством, этого недостаточно, чтобы считаться научной организацией. См. Модельный закон «О научной и научно-технической деятельности», принятый постановлением № 31-15 от 25 ноября 2008 года Межпарламентской Ассамблеей государств – участников СНГ.

вернуться

52

“Национальный корпус русского языка разрабатывают два института Российской академии наук: Институт русского языка им. В. В. Виноградова и Институт проблем передачи информации им. А. А. Харкевича, в сотрудничестве с Яндексом. Кроме того, над корпусом работает большая команда лингвистов и программистов и из других организаций” (https://ruscorpora.ru/page/faq)

вернуться

53

https://viewer.rusneb.ru/ru/000199_000009_003585641?page=147&rotate=0&theme=white

вернуться

54

Вся многочисленная советская художественная литература советского периода о Средневековой Руси в корпусе представлена рассказом Бориса Шергина “Гандвик — студеное море” и его же очерком-предисловием к авторскому сборнику “Повести и рассказы”.

вернуться

55

Вот так выгладит первый десяток нехудожественных текстов о сельском хозяйстве за 1917-1991 год, отобранных в Национальный корпус русского языка “большой командой лингвистов”. Главный источник сведений в русском языке о сельском хозяйстве за 1991 год — журнал «Огонек».

1. Юрий Говорухин. Как растет репейник (1991) // «Огонек». № 41, 1990

2. Анатолий Головков. Путь к коммунизму // «Огонек». № 11, 1991

3. Михаил Гуртовой. Робинзоны уходят в подполье // «Огонек». № 11, 1991

4. Михаил Зараев. Долгое прощание с неволей // «Огонек». № 8, 1991

5. Михаил Зараев. Как возродить кулака // «Огонек». № 3, 1991

6. Михаил Зареев. Господа делегаты. Заметки со съезда крестьянской партии // «Огонек». № 13, 1991

7. Константин Лысенко. Сто лет спустя // «Огонек». № 9 (3319), 1991

8. Н. Б. Саяпова. Дневник (1991)

9. Юрий Черниченко. Красный остров // «Огонек». № 10, 1991

10. Юлия Берниковская. Сельский тореадор // «Огонек». № 8, 1991

...

Всего 791 текст, 1 071 148 слов.

вернуться

56

“Обязательные ссылки

В списке литературы в конце работы необходимо привести ссылку на статью о Корпусе: ...” (https://ruscorpora.ru/page/corpora-quote)