ВОСТОКОВЕДЕНИЕ. АФРИКАНИСТИКА.
Выпуск 1, 2014 год
СОДЕРЖАНИЕ
Раздел | ЯЗЫКОЗНАНИЕ | ||
Коды УДК | 811.411.21 | Страницы | 14-22 |
Заглавие | ФОРМИРОВАНИЕ КОРПУСА ТЕКСТОВ И ОПРЕДЕЛЕНИЕ ЧАСТОТНОСТИ СЛОВ В АРАБСКОМ ЯЗЫКЕ: ПРОБЛЕМЫ И РЕШЕНИЯ | ||
Автор 1 | Редькин Олег Иванович | Санкт-Петербургский государственный университет 199034, Санкт-Петербург, Российская Федерация доктор филологических наук, профессор e-mail: oleg_redkin@mail.ruu |
|
Аннотация | Хотя проблема формирования корпуса текстов на материале индоевропейских языков, включая русский, сравнительно хорошо разработана в отношении других языков, прежде всего арабского, она далека от своего окончательного решения. В статье рассматриваются проблемы и возможные решения при построении арабского корпуса текстов на базе материала из Интернета и других доступных источников, а также принципы отбора данных. В статье также приведены результаты формирования частотного словаря арабского языка, список наиболее распространенных арабских слов с их частотной индексацией. | ||
Ключевые слова | Арабский язык, корпус, компьютер, данные, обработка, частотность, словарь. |