[RUS][ENG]

Серия 13

ВОСТОКОВЕДЕНИЕ. АФРИКАНИСТИКА.

Выпуск 1, 2014 год

СОДЕРЖАНИЕ

Раздел ЯЗЫКОЗНАНИЕ
Коды УДК 811.411.21 Страницы 14-22
Заглавие ФОРМИРОВАНИЕ КОРПУСА ТЕКСТОВ И ОПРЕДЕЛЕНИЕ ЧАСТОТНОСТИ СЛОВ В АРАБСКОМ ЯЗЫКЕ: ПРОБЛЕМЫ И РЕШЕНИЯ
Автор 1 Редькин Олег Иванович Санкт-Петербургский государственный университет
199034, Санкт-Петербург, Российская Федерация
доктор филологических наук, профессор
e-mail: oleg_redkin@mail.ruu
Аннотация Хотя проблема формирования корпуса текстов на материале индоевропейских языков, включая русский, сравнительно хорошо разработана в отношении других языков, прежде всего арабского, она далека от своего окончательного решения. В статье рассматриваются проблемы и возможные решения при построении арабского корпуса текстов на базе материала из Интернета и других доступных источников, а также принципы отбора данных. В статье также приведены результаты формирования частотного словаря арабского языка, список наиболее распространенных арабских слов с их частотной индексацией.
Ключевые слова Арабский язык, корпус, компьютер, данные, обработка, частотность, словарь.