Банк рефератов содержит более 364 тысяч рефератов, курсовых и дипломных работ, шпаргалок и докладов по различным дисциплинам: истории, психологии, экономике, менеджменту, философии, праву, экологии. А также изложения, сочинения по литературе, отчеты по практике, топики по английскому.
Полнотекстовый поиск
Всего работ:
364139
Теги названий





Разделы
Авиация и космонавтика (304)
Административное право (123)
Арбитражный процесс (23)
Архитектура (113)
Астрология (4)
Астрономия (4814)
Банковское дело (5227)
Безопасность жизнедеятельности (2616)
Биографии (3423)
Биология (4214)
Биология и химия (1518)
Биржевое дело (68)
Ботаника и сельское хоз-во (2836)
Бухгалтерский учет и аудит (8269)
Валютные отношения (50)
Ветеринария (50)
Военная кафедра (762)
ГДЗ (2)
География (5275)
Геодезия (30)
Геология (1222)
Геополитика (43)
Государство и право (20403)
Гражданское право и процесс (465)
Делопроизводство (19)
Деньги и кредит (108)
ЕГЭ (173)
Естествознание (96)
Журналистика (899)
ЗНО (54)
Зоология (34)
Издательское дело и полиграфия (476)
Инвестиции (106)
Иностранный язык (62791)
Информатика (3562)
Информатика, программирование (6444)
Исторические личности (2165)
История (21319)
История техники (766)
Кибернетика (64)
Коммуникации и связь (3145)
Компьютерные науки (60)
Косметология (17)
Краеведение и этнография (588)
Краткое содержание произведений (1000)
Криминалистика (106)
Криминология (48)
Криптология (3)
Кулинария (1167)
Культура и искусство (8485)
Культурология (537)
Литература : зарубежная (2044)
Литература и русский язык (11657)
Логика (532)
Логистика (21)
Маркетинг (7985)
Математика (3721)
Медицина, здоровье (10549)
Медицинские науки (88)
Международное публичное право (58)
Международное частное право (36)
Международные отношения (2257)
Менеджмент (12491)
Металлургия (91)
Москвоведение (797)
Музыка (1338)
Муниципальное право (24)
Налоги, налогообложение (214)
Наука и техника (1141)
Начертательная геометрия (3)
Оккультизм и уфология (8)
Остальные рефераты (21692)
Педагогика (7850)
Политология (3801)
Право (682)
Право, юриспруденция (2881)
Предпринимательство (475)
Прикладные науки (1)
Промышленность, производство (7100)
Психология (8692)
психология, педагогика (4121)
Радиоэлектроника (443)
Реклама (952)
Религия и мифология (2967)
Риторика (23)
Сексология (748)
Социология (4876)
Статистика (95)
Страхование (107)
Строительные науки (7)
Строительство (2004)
Схемотехника (15)
Таможенная система (663)
Теория государства и права (240)
Теория организации (39)
Теплотехника (25)
Технология (624)
Товароведение (16)
Транспорт (2652)
Трудовое право (136)
Туризм (90)
Уголовное право и процесс (406)
Управление (95)
Управленческие науки (24)
Физика (3462)
Физкультура и спорт (4482)
Философия (7216)
Финансовые науки (4592)
Финансы (5386)
Фотография (3)
Химия (2244)
Хозяйственное право (23)
Цифровые устройства (29)
Экологическое право (35)
Экология (4517)
Экономика (20644)
Экономико-математическое моделирование (666)
Экономическая география (119)
Экономическая теория (2573)
Этика (889)
Юриспруденция (288)
Языковедение (148)
Языкознание, филология (1140)

Реферат: работа

Название: работа
Раздел: Остальные рефераты
Тип: реферат Добавлен 01:17:06 01 сентября 2011 Похожие работы
Просмотров: 11 Комментариев: 13 Оценило: 0 человек Средний балл: 0 Оценка: неизвестно     Скачать

Министерство Образования Республики Беларусь

Белорусский Государственный Университет

Факультет прикладной математики и информатики

Кафедра математического обеспечения АСУ

Курсовая работа

студента 2 группы 3 курса

Бондаренка Алексея

Машинные словари

в задачах автоматической обработки текста

Руководитель : Совпель И.В.

Минск 1999

Оглавление

1. Введение.¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼ 3

2. Виды МС.¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼ 4

3. Двуязычные МС.¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼ 6

4. Омонимия и кодирование.¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼7

5. Автоматизация построения словарей (постановка и решение задачи).¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼12

6. Заключение.¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼13

7. Литература.¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼¼ 14

1.Введение

В последнее время всё больше внимания уделяется задачам понимания естественного языка и автоматической переработки текста. Естественный язык (ЕЯ) является универсальным средством описания действительности и коммуникации с вычислительной системой, поэтому для упрощения взаимодействия пользователя и ЭВМ необходимо как можно плотнее приблизить язык общения к естественному. Эта проблема возникла по сути дела вместе с появлением компьютера, но реально ей занялись только в последние годы, когда развитие информационных систем позволило применять полученные ранее теоретические результаты на практике.

Одним из основных компонентов любой системы автоматической переработки текста ЕЯ является машинный словарь (МС). Машинный словарь - это упорядоченное конечное множество лингвистической информации, представленное в виде некоторой структуры данных, удобной для размещения в памяти ЭВМ и снабженное процедурами автоматического поиска и ведения. Ясно, что вопросы, связанные с организацией хранения и реализацией поиска, корректировки и т.п. для МС, играют ключевую роль в производительности и эффективности проектируемой системы.

По характеру лексических единиц, включенных в словарь, МС подразделяются на словари основ (список основ и окончаний, позволяющий сократить объем занимаемой МС памяти, но усложняющий морфологический анализ и описание ЕЯ) и словари словоформ, состоящие из всех словарных форм данного ЕЯ. Словари словоформ требуют больше памяти для размещения, однако, морфологический анализ значительно упрощается. Нередко экономия памяти в словарях основ является неоправданной за счет громоздких и не всегда эффективных алгоритмов анализа, к тому же ресурсы современных ЭВМ позволяют хранить словари практически любых необходимых размеров, поэтому использование словарей словоформ предпочтительнее.

Построение словаря словоформ задача достаточно трудоемкая и естественно возникает проблема ее автоматизации. Для этой цели необходим некоторый инструментарий, который, руководствуясь определенными правилами, для каждого слова ЕЯ строит соответствующий ему список словоформ, при, желательно, минимальном участии со стороны пользователя. Состав такого инструментария, его функции существенно зависят от вида создаваемого МС, а также свойств самого ЕЯ.

2.Виды МС

Существует несколько классификаций МС по типам, одна из них это, упомянутая выше, классификация по характеру лексических единиц, входящих в словарь. Также можно привести классификацию по способу организации словника: МС делятся на частотные (словарные единицы упорядочены по убыванию частот), алфавитные, тезаурусы (единицы группируются по семантическим полям, понятийным группам и т.п.), конкордансы (группировка по ключевым словам).

Кроме того, структура словаря может быть разной в зависимости от исходного ЕЯ. Например, для флективно-бедных языков, в частности английского, при построении алфавитного МС словоформ, эффективной по степени сжатия и скорости обработки информации оказывается так называемая ассоциативная структура (АС). АС представляет собой дерево специального вида, каждый узел которого состоит из информационного поля, содержащего букву ЕЯ, и двух ссылок: "вниз" и "вправо". Построение такого дерева происходит по следующей схеме: для первого слова словаря строим вертикальный список (заносим в информационную часть букву, устанавливаем ссылку "вниз" на следующий узел и далее аналогично, конец списка отмечаем специальным символом и в последнюю ссылку заносим адрес семантико-грамматической информации о слове). При добавлении второго слова происходит последовательное сравнение букв слова с буквами в списке, и при первом несовпадении устанавливаем соответствующую ссылку "вправо" на узел, в который заносим несовпадающую букву. Для этого узла строим вертикальный список, используя оставшиеся буквы слова. Каждое следующее слово добавляется аналогично, с учетом того, что новая ссылка "вправо" добавляется лишь в случае несовпадения буквы слова со всеми буквами вертикального списка, в противном случае продолжаем поиск в поддереве, корень которого содержит такую же букву, как и текущая буква добавляемого слова.

Для упрощения выделения и обработки словарных оборотов в организации алфавитного МС часто используется треугольная структура. В словарь наряду с отдельными словоформами включаются также и словарные обороты, затем записи сортируются в алфавитном порядке по первому слову, а подмножество записей имеющих одинаковые первые слова сортируется в порядке убывания количества содержащихся в них словоформ. При обработке текста треугольная структура обеспечивает выделение из текста наибольших по длине словарных оборотов.

Для русского и беларуского языков, являющихся флективно-богатыми языками, при построении МС словоформ более приемлемой является так называемая гнездовая структура. В данном случае под гнездом подразумевается совокупность словоформ одной основы или, что то же самое, множество всех грамматических форм некоторого основного слова. При использовании такой структуры, в памяти ЭВМ явно хранится лишь основное слово, а для остальных - информация о том насколько они отличаются от него (см. табл. 1). Это обеспечивает значительную экономию памяти наряду с небольшими потерями машинного времени при развертывании гнезда. Следует отметить, что особенно полезной данная структура может оказаться в многоязычной ситуации, когда исходный текст принадлежит одному ЕЯ, а выходной - другому.

Таблица 1

Представление гнезда словоформ

Список словоформ гнезда Представление гнезда после сжатия

перевод перевод

перевода 7а

переводом 7ом

переводе 7е

переводы 7ы

переводу 7у

переводам 7ам

переводами 9и

переводах 8х

переводить 7ить

переводил бы 8л бы

3. Двуязычные МС

Особое место в задачах автоматической переработки текстов занимают двуязычные (бинарные) машинные словари, т.е. словари вида ( Lp, Lq ) , где Lp, Lq - соответственно входной и выходной ЕЯ. В каждом таком словаре отдельному r-тому слову или словосочетанию языка Lp ставится в соответствие некоторое конечное множество альтернативных эквивалентов языка Lq :

(1)

Бинарные МС составляют основу разработки систем машинного перевода и требуют эффективных методов своего представления в памяти компьютера, обеспечивающих максимальное устранение повторяемости данных и оптимальный доступ к ним. Понятно, что представление рассматриваемого класса МС в виде, например, совокупности отдельных списков, каждый из которых реализует соответствие типа (1), не является таковым. Так как, во-первых, имеет место большая избыточность данных, и, во-вторых, не учитываются особенности функционирования систем машинного перевода, основная из которых заключается в том, что обращение к выходному языку Lq происходит только в конечной стадии процесса перевода.

Информационно-лингвистическую основу задачи построения интегрированной системы автоматического ввода, корректировки, редактирования и перевода текстов в двуязычной информационной среде составляют машинные словари входного и выходного языков. Их разработка включает следующие этапы:

1) сбор статистического материала из разных источников текстов выходного языка и составление картотеки всех словоупотреблений, которые встречаются в этих источниках;

2) создание на основе полученной картотеки словаря выходного языка;

3) развертывание для каждой лексической единицы всех ее грамматических форм;

4) перевод каждой лексической единицы с выходного языка на входной;

5) перенос словаря на машинные носители информации и последующая его корректировка.

4. Омонимия и кодирование

Слова с одинаковым буквенным составом, обозначающие разные понятия, называются омонимами (греч. homos - одинаковый и onуma, onoma - имя). Омонимы надо отличать от многозначных слов. Когда все оттенки значения слова совпадают в его основном, общем значении, то в таком случае говорят о многозначности слова. Когда же отдельные значения слова резко расходятся, отделяются от основного значения слова и утрачивают с ним связь, то возникает омонимичность, это значит, образуются новые самостоятельные слова - омонимы.

В зависимости от значения и образования омонимы делятся на два основные типа:

I. лексические, или простые омонимы;

II. морфологические, или производные омонимы.

К первому типу принадлежат слова, относящиеся к одной части речи и имеющие одинаковые формы словоизменений,

К другому типу омонимов относятся слова, которые по звуковому составу совпадают только в определённых грамматических формах. Они обычно принадлежат к разным частям речи. Такие омонимы называются омоформами .

Существует несколько видов омонимии, например межкатегориальная (межродовая) и межсистемная (межъязыковая) (более подробно см. [2]), которые в свою очередь детализируются на подтипы и подвиды омонимии с разновидностями по роду и представляют серьезнейшую помеху при автоматическом переводе даже при близости таких языков как русский и беларуский.

Если рассматривать омонимию с точки зрения порождения и восприятия текста, то можно отметить следующее:

· для говорящего и пишущего омонимии нет, если автор специально не хочет использовать омонимы в каких-то специальных целях;

· для слушающего и читающего омонимии почти нет, так как ударение, контекст снимают практически все омонимичные ситуации;

· при машинной обработке текстов и при машинном переводе омонимия возрастает, так как при двух системных омонимиях возникает еще и межсистемная омонимия.

Единственным способом снятия омонимии в двух языках в плане грамматическом и лексическом является системное кодирование. Системный характер кода представляет следующие характеристики:

1) код должен быть экономным и в то же время избыточным; таким кодом является система-язык.

2) код должен снимать омонимию, т.е. быть однозначным ;

3) код должен быть простым и в то же время сопряженным, что дает экономичность коду.

В качестве такой системы на базе симметрии/асимметрии, так как язык-система является именно симметрично-асимметричной (иначе не было бы и омонимии как феномена, когда при симметричности формы имеется асимметрия разных значений), например, для русско-беларуской информационной среды может быть использована следующая симметрично-асимметричная матрица кодов.

Таблица 2

Матрица кодов

Падеж Время Наклонение

И. Р. Д. В. Т. П. Прош Наст Буд Пов.

Я 01 11 21 31 41 51 61 71 81 91

мы 02 12 22 32 42 52 62 72 82 92

ты 03 13 23 33 43 53 63 73 83 93

вы 04 14 24 34 44 54 64 74 84 94

он 05 15 25 35 45 55 65 75 85 95

они 06 16 26 36 46 56 66 76 86 96

она 07 17 27 37 47 57 67 77 87 97

-- 08 18 28 38 48 58 68 78 88 98

оно 09 19 29 39 49 59 69 79 89 99

-- 00 10 20 30 40 50 60 70 80 90

Примечания:

1. Код состоит из трех символов.

2. Первый символ обозначает часть речи, он отсутствует в матрице:

существительное = 1,

глагол = 2,

местоимение = 3,

наречие = 4,

союз = 5,

краткое страдательное причастие = 6,

прилагательное = 7,

частица = 8;

предлог = 9,

числительное = 0.

3. Два другие символа кодируют грамматические позиции рода, числа, падежа для существительных, прилагательных, причастий. Для глаголов - род, время, лицо. Для местоимений - падеж, род, лицо, число;

4. Первый символ 6 после кода глагола как части речи означает прошедшее время, символ 7 - настоящее время и символ 8 - будущее время, символ 9 - повелительное наклонение. Второй символ означает лицо и число. Вторые нечетные символы везде означают единственное число, четные символы - множественное.

5. Предлоги, управляющие только одним падежом, берут код соответствующего падежа:

9-1 - родительным,

9-2 - дательным,

9-3 - винительным,

9-4 - творительным,

9-5 - предложным.

Многопадежные предлоги требуют специального кодирования.

6. Первые символы при чтении по вертикали кодируют шесть падежей (от 0 до 5), три времени и одно наклонение (с 6 до 9). Вторые символы при чтении по горизонтали кодируют лицо, род, число - для местоимений и глаголов; число и род - для существительных, прилагательных и причастий.

7. Две последних строки пусты - этими кодами можно кодировать еще некоторые сложные позиции.

Матрица кодов позволяет однозначно закодировать местоимения, прилагательные, существительные, причастия и глаголы так, что грамматическая, межклассовая и внутриклассовая, внутрипарадигматическая и межпарадигматическая внутри одного класса омонимии снимаются кодом. Особенно это хорошо в случаях согласования в роде, в роде и числе, в роде, числе и падеже.

Однако, при таком кодировании возникает проблема - во многих случаях анализа окружения недостаточно для выбора одной из омонимичных форм, либо данные окружения являются противоречивыми. В исходном словаре на словоформу ее имеются три кодировки в виде: 317, 337 и 737 с аналогичными кодами во втором языке, а так как алгоритмы корректировки будут отталкиваться от этого слова, то существует вероятность неправильного выбора слов из гнезда при переводе окружения.

Завершая описание системы кодов, можно сказать, что свои задачи она решает достаточно полно, так как содержащейся в коде информации достаточно и для более глубокой переработки текста. Избыточность информации позволяет рассчитывать на улучшение алгоритмов корректировки и, как следствие, повышение качества перевода.

Структура гнезда русско-беларуского словаря

ГНЕЗДО/НАЧАЛО

ОсноваРУС=ОсноваБЕЛ

оконч(1)РУС+КОД=оконч(1)БЕЛ+КОД

оконч(2)РУС+КОД=оконч(2)БЕЛ+КОД

...

оконч(Х-1)РУС+КОД=оконч(Х-1)БЕЛ+КОД

оконч(Х)РУС+КОД=оконч(Х)БЕЛ+КОД

ГНЕЗДО/КОНЕЦ

5. Автоматизация построения словарей

(постановка и решение задачи)

Рассмотрим подробнее основные алгоритмы и методы подготовки словника.

При построении системы машинного перевода деловой прозы с русского языка на беларуский (см. [2]), словник в своем окончательном варианте включал более 100.000 исходных слов, каждое из которых имеет гнездо словоизменений (около 12 словоформ в среднем). Каждая словоформа имеет свой код, содержащий лингвистическую информацию. Ввод такого словника одним человеком без дополнительной автоматизации занял бы, по меньшей мере, 25000 часов непрерывной работы. В связи с этим были созданы три программные системы для ввода словника:

- программа поиска и формирования групп слов с одинаковыми окончаниями (1);

- программа заполнения гнезд по группам (2);

- программа заполнения гнезд по признакам (3).

Словарь исходных форм был введен вручную. Далее исследования при помощи программы 1 выявили основные группы окончаний слов, имеющих в гнезде идентичное изменение и кодирование. Например, слова учитель, строитель, канавокопатель изменяются и кодируются аналогично в обоих языках и имеют группу (гласная)+тель .

Далее программа 2 строила, исходя из группы, возможное гнездо, и оператор после беглого просмотра (в ходе работы было выяснено, что ошибки в кодах могут встречаться лишь в двух падежах) подтверждал или отменял выбор системы. Этим способом было создано около 70% словаря. Однако эти слова (наиболее легко формализуемые) имеют самую низкую частоту встречаемости в текстах. Таким образом, эти 70% словаря переводили лишь 5-15% текста! Следовательно, оставалась небольшая, но очень сложноформализуемая и сложнокодируемая часть словаря.

Программа 3 создавала гнезда, исходя не из окончаний (хотя тоже исследовала некоторые признаки), а из задаваемых оператором параметров для исходного слова. Например, слова стол и слон аналогичны в смысле кодирования. Но сгруппировать их по признаку гласная +согласная в конце нельзя, потому что еще множество слов оканчиваются так же, но изменяются по-другому. Поэтому оператор относил их к группе существительное мужского рода, согласная в конце вручную, а гнездо создавалось автоматически. С помощью этой программы удалось ввести еще 20% словаря. Обработка недостающих 10% производилась практически вручную.

Таким образом алгоритм задачи построения машинного словаря словоформ можно представить в виде следующей схемы:

1. Ввод исходных словоформ (вручную).

2. Выделение по окончаниям групп слов, которые кодируются идентично (автоматически).

3. Построение гнезд по группам (автоматически).

4. Выделение групп аналогично кодируемых слов исходя из их морфологии и состава (вручную).

5. Построение гнезд по группам (автоматически).

6. Добавление оставшейся части словаря (вручную).

6. Заключение

В данной работе была исследована роль машинных словарей в задачах автоматической обработки текста, их основные типы и особенности. Рассмотрено такое явление естественного языка как омонимия, показаны вызываемые ею сложности при обработке текста и предложена система кодирования для ее снятия. Поставлена задача автоматизированного построения машинного словаря на этапе развертывания основных грамматических форм. Разработаны алгоритмы ее решения, реализованные в виде трех программных модулей, каждый из которых на соответствующем этапе обеспечивает значительное ускорение построения словаря.

7. Литература

1. Совпель И.В. Инженерно-лингвистические принципы, методы и алгоритмы автоматической переработки текста. - Мн.: Выш.шк.,1991.

2. Совпель И.В., Невмержицкая Г.П. и др. Отчет о научно-исследовательской работе "Разработать программные средства машинного перевода текста".

Оценить/Добавить комментарий
Имя
Оценка
Комментарии:
Хватит париться. На сайте FAST-REFERAT.RU вам сделают любой реферат, курсовую или дипломную. Сам пользуюсь, и вам советую!
Никита20:26:56 05 ноября 2021
.
.20:26:54 05 ноября 2021
.
.20:26:51 05 ноября 2021
.
.20:26:49 05 ноября 2021
.
.20:26:47 05 ноября 2021

Смотреть все комментарии (13)
Работы, похожие на Реферат: работа

Назад
Меню
Главная
Рефераты
Благодарности
Опрос
Станете ли вы заказывать работу за деньги, если не найдете ее в Интернете?

Да, в любом случае.
Да, но только в случае крайней необходимости.
Возможно, в зависимости от цены.
Нет, напишу его сам.
Нет, забью.



Результаты(294402)
Комментарии (4230)
Copyright © 2005 - 2024 BestReferat.ru / реклама на сайте