Выбрать главу

По способу образования словоформ русский язык – флективный, то есть в нем существуют флексии (от лат. flexio – сгибание), или окончания, выражающие грамматическое значение при словоизменении (склонении, спряжении). Русский язык относится также к классу синтетических языков: в слове объединено и лексическое, и грамматическое значение.

Слово во всей совокупности его лексических значений называется лексемой (от греч. lexis – слово, выражение). Лексема – это единица лексического уровня языка; система словоформ, относящихся к одной лексеме, называется ее парадигмой. Другими словами, парадигма слова – это образец типа склонения или спряжения, совокупность всех словоформ, полученных при изменении слова по числам, падежам, родам и временам. Наиболее сложную парадигму в русском языке имеют глаголы. У неизменяемых слов лексема и словоформа совпадают. В словарях каждая лексема представлена одной из словоформ, которая называется словарной или исходной. В русском языке словарными формами являются следующие:

• для существительных – именительный падеж единственного числа;

• для прилагательных – именительный падеж единственного числа мужского рода;

• для глаголов, причастий и деепричастий – глагол в инфинитиве.

Все современные поисковые системы, работающие с учетом морфологии русского языка, базируются на «Грамматическом словаре русского языка», составленном А. А. Зализняком. Основное назначение этого словаря – отразить русское словоизменение, то есть для каждого входящего в словарь слова дать сведения о том, изменяемо ли оно, а если да, то как именно это слово склоняется или спрягается. В ранней редакции этот словарь был назван «Обратный словарь русского языка», так как в нем принят не обычный алфавитный порядок расположения слов, а инверсионный (от конца слова к началу). Это обусловлено тем, что одинаковый или похожий тип словоизменения в русском языке имеют слова со сходным концом, а не со сходным началом. Таким образом, при инверсионном алфавитном расположении слова с одинаковым или сходным типом словоизменения обычно оказываются рядом и образуют большие массивы.

Работы по формальному описанию естественного языка тесно связаны с идеями автоматического перевода, появление которых относится к 30-м годам XX века. Первые эксперименты в этой области начались в 1954 году в Джорджтаунском университете (США). До сих пор все существующие автоматические переводчики, как отечественные, так и зарубежные, хотя и умеют делать более-менее грубый подстрочник, даже близко не подошли к уровню профессионального художественного перевода.

Важная часть морфологической обработки – выделение основы слова. Основой называется часть, которая остается после отсечения окончания слова и с которой связано его лексическое значение.

Одна из сложностей формального анализа русского языка – наличие в нем омонимов. Омонимы (от греч. homуs – одинаковый и уnyma – имя) – разные по значению, но одинаково звучащие и пишущиеся слова, например: «рысь» – способ бега и «рысь» – животное. С точки зрения автоматического разбора особенно сложны не полные омонимы (поскольку они имеют одинаковую словоизменительную схему), а омоформы. Это разные слова, часто являющиеся и разными частями речи, но совпадающие по звучанию в отдельных формах, например: существительное «печь» (печи, печью) и глагол «печь» (пеку, печешь); существительное «раздел» (раздел книги) и глагол «раздел» (раздел донага). Очевидно, что определение семантики в таких случаях можно произвести только по контексту.

Упомянутый выше словарь А. А. Зализняка включает 90 000 слов. Однако в русском языке их больше, кроме того, постоянно появляются новые. Некоторые системы, работающие с учетом морфологии русского языка (например, Яndex), умеют обрабатывать эти слова, используя описанные в словаре Зализняка словообразовательные типы. Результат обработки будет тем лучше, чем больше новое слово похоже на обычные слова языка.

Релевантность

Релевантность – это мера соответствия получаемого результата желаемому, или, в терминах поисковых систем, соответствие ответа запросу.

Релевантность можно представить как способ сортировки найденных по запросу документов. Каждая поисковая машина имеет свой алгоритм сортировки результатов поиска. Чем больше документ соответствует запросу, тем выше он должен находиться в списке отклика. Для достижения хорошего результата обычно учитывают следующие параметры: количество найденных слов, «контрастность» слова (относительную частоту его использования в данном документе), расстояние между словами, положение слова в документе и в его зонах.