Введение
Разработка системного программного обеспечения -это прямая задача системного программиста. Более того разработка не есть конечный пункт его деятельности. Совершенное владение этим инструментом -вот главная задача. Системное программирование является одной и наиболее широкой областью программного обеспечения. Главным преймуществом его является непосредственная гибкость и направленность на достижение определённой задачи. Логика и формальность -ключ к системному программированию.
В данной работе рассмотрен пример реализации языка при помощи популярного языка высокого уровня С++. Поэтому сам продукт разработки автоматически относится к типу «компиляторов». В отличии от интерпретаторов и ассемблеров данный вариант может быть доступен для понимания широкому кругу программистов на что и был рассчитан. В работе рассмотрен пример, входным языком которого является язык Си. Интересным моментом здесь является развитие языка при помощи самого себя. Т.е. фактически имея определённый набор команд или функции можно не только сконструировать но и расширить свой собственный язык. Другое дело будет ли он полезен и однозначен?
Разработанный язык в данной программе по классификации
Хомского относится к автоматной грамматике, т.к. последнее звено декомпозиции удовлетворят правилу построении такого рода грамматик.
Замечание:
пункт 6, 7, 8 не являются правилами вывода, а лишь служат для отражения семантической и синтаксической стороны грамматики.
Для наглядного изображения работы программы представлено
дерево функционального вызова (рис 1). На нём можно проследить
принцип рекурсивного спуска -основной принцип, заложенный в обработку. Он заключается в прохождении дерева от крайней левой до крайней правой вершины дерева.
Кроме того, для людей с инженерным складом ума, привыкшим рассматривать системы на уровне черного ящика, предложена схемная реализация программы. Она выполнена в виде отдельных функциональных блоков, черных ящиков, в которых идет обработка текущего терминального символа.
Рис 1. Функциональное дерево вызова. Элементы И и ИЛИ определяют выборочность при вызове функции. Т.е. в случае элемента И выполнится как первая так и вторая функция. Для элемента ИЛИ вызов функции определяется однозначно.
|
TREATMENT
|
|
|
&
|
&
|
&
|
&
|
&
|
&
|
|
TYPE
|
BRACKET
|
TERM
|
SIGN
|
TERM
|
BRACKET
|
FUNC
|
TZ
|
|
|
|
1
|
1
|
&
|
|
|
DIGIT
|
IDENT
|
DIGIT
|
IDENT
|
TERM
|
BRACKE
T
|
|
Расшифровка:
1. TYPE - функция TYPE(«набор терминальных символов»). В данном случае представляется TYPE(«if»). Сканирует соответствующие терминальные символы и выдаёт сообщение об ошибке в случае несоответствия текущего и входного языков.
2. BRACKET - функция (англ. «скобка»). В данном случае имеет вид:
BRACKET(1) -параметр функции характеризует тип скобки.
1 -открывающаяся 2 -закрывающаяся 3 -и та и другая
3. TERM - функция TERM(). Сканирует на терм-конструкцию.
4. SIGN - функция SIGN() (англ. «знак»). Сканирует знак.
5. DIGIT - функция DIGIT() (англ. «цифра»). Сканирует на целое число.
6. IDENT - функция IDENT() (сокр. «идентификатор»). Сканирует на идентификатор.
7. FUNC - функция FUNC(), сканирует на функциональную конструкцию.
8. TZ - функция TZ() (сокр. «точка с запятой»), сканирует точку с запятой.
TYPE
BRACK TERM SIGN
FUNC TZ
рис. 2 Функциональная схема работы программы. Каждому входу элемента соответствует свой выход.
Данная функциональная схема отражает работу программы с точки зрения вызова функции. Начало работы программы идёт с подачи на вход блока TYPE управляющего терминального символа IF. После его обработки идёт запрос следующего функционального блока, отвечающего за обработку терминальных символов «(» и «)». Затем сигнал подается на вход устройства, соответствующего терминальным символам TERM и т.д.
Задача функциональной схемы -более наглядно, на языке инженера, отразить обработку входного языка по принципу рекурсивного спуска. Для примера решим задачу:
Задача:
принадлежит ли грамматике языка следующее синтаксическое предложение:
IF ( A < B ) BULL () ;
Для решения задачи обратимся к имеющемуся входному
языку G <Оператор>.
Любой язык, назовём его G <Z> в независимости от его классификации и функционального назначения содержит следующие базисные элементы: G <Z> ={ Vt, Vn, Z, P }, где:
Vt - словарь терминальных символов
Vn - словарь нетерминальных символов
Z - начальный нетерминальный символ
P - множество правил вывода
Для языка G <Оператор> имеем следующие множества:
Vt ={ 0, 1, 2, ... , 9 ; a, b, c, d, ... ,z ; A, B, C, ..., Z; <, >, = };
Vn ={«Оператор», «УслВыр», «Терм», «Операнд», «Функция», «Идентификатор», «Скобки», «Целое» };
Z = { «Оператор» };
P = {
1. < Оператор > - IF ( < УслВыр > ) < Функция >; [ ELSE < Функция >; ]
2. < УслВыр > - T | < УслВыр > < T | < УслВыр > > T | < УслВыр > = Т
3. < Терм > - O | «Целое»{ «Целое» } | «Идентификатор»{ О }
4. < Функция > - O< Скобки > | О{ О }< Скобки >
5. < Операнд > - «Целое» | «Идентификатор»
6. < Целое > = { 0, 1, 2, 3, ... , 9 }
7. < Идентификатор > - { a, b, c, d, ... , z; A, B, C, ... ,Z }
8. < Скобки > - { ( , ) }
}
< Оператор >
< УВ >
< УВ >
T T
< Функция >
O O O { O }
ид ид { ид }
ИД ИД ИД ИД
IF ( A < B ) B U L L () ;
В программе данные функции размещены в соответствии с входным языком G < Оператор>. В случае смены входного языка
требуется всего на всего заменить очередность вызова функций. Например в пределах заданного базиса можно сконструировать грамматику G < Инструкция >.
G < Инструкция > - PRINT ( < УВ > ) ( < УВ > ) < Функция >;
( Дальнейшая конструкция языка идентична языку G < Оператор > ).
Сконструируем дерево вызова следующим образом:
TREATMENT - TYPE(«print») - BRACKET(1) - TERM() - SIGN() - TERM() - BRACKET(2) - BRACKET(1) - TERM() - SIGN() - TERM() - BRACKET(2) - FUNC() - TZ()
Таким образом можно порождать необходимые языковые конструкции. На данном этапе имеются уже два оператора
IF и PRINT. Можно продолжать дальнейшее наращивание входного словаря операторов, таким образом расширяя сам свой собственный язык.
Язык G < Оператор > выполнен со значительными усечениями поэтому не претендует на роль идеального базиса. Например обязателен вызов функции после круглой скобки,
хотя реально это только мизерная часть возможных операций.
Автор данной работы не ставил перед собой задачу сконструировать более менее приемлимый язык. Главная цель -это отразить понимание принципа построения грамматик и выработки языка.
Несколько слов о самой программе. Программа выполнена,
как я уже упомянал, на языке Си, с элементами Си++. После запуска
программы непосредственно сразу последует запрос на анализ синтаксиса. Словом в верхней части экрана необходимо ввести строку и нажать клавишу «ENTER». В зависимости от набора символов в нижнем окне появятся соответствующие сообщения:
a) Об ошибках -в случае несоответствия входного и текущего языков
b) «Успех!!!» -в противном случае
Имеется возможность использования ключевых слов:
1. «help» -выводит на экран окно помощи
2. «helpme» -выводит на экран авторское окно
3. «exit» -выход из программы
Приведена распечатка самой программы, с подробными коментариями к ней. Уточню, что это не полная выкладка. Функции работы с окнами за ненадобностью упущены автором.
Постановка задачи
Пользуясь базовым языком высокого уровня Си ++ разработать и реализовать синтаксический анализатор условного оператора
IF ELSE языка Си.
Порядок выполнения:
1. Построение формального языка L
В основе построения L заложены основные принципы языка, указанного в задании. Все допущения, усечения должны быть обоснованы и предварительно согласованы с учителем.
2. Подбор грамматики G[Z] по языку L
Построенный формальный язык L, подвергается декомпозиции, в процессе которой выявляются лексические составляющие - идентификаторы, константы и др. терминальные символы.
3. Классификация G[Z]
Для гарантии однозначности и безвозвратности разработанного языкового процессора выбранный язык отнести согласно класси-
фикации формальных грамматик, предложенных Хомским.
4. Выбор метода анализа
Проанализировать и выбрать наиболее подходящий анализ входного языка.
5. Диагностика и нейтрализация ошибок
Разработать алгоритм диагностики и нейтрализации ошибок.
6. Тестирование на программы на символьных цепочках
Протестировать разработанный языковой процессор на конкретных символьных цепочках.
7. Листинг
В конце отчета поместить распечатку программы с подробными коментариями.
Построение формального языка
L
< Оператор > - IF ( < УслВыр > ) < Функция >;
[ ELSE < Функция >; ]
< Оператор > -- начальный нетерминальный символ
IF -- входной терминальный символ
ELSE -- входной терминальный символ (может и отсутствовать)
< УВ > -- условное выражение
< Функция > -отражает функциональную конструкцию языка Си
Пример правильного синтаксиса:
if ( a < b ) CallTheFunction( code1 ); else TheNextFunction( code2 );
a < b - есть условное выражение
«CallTheFunction» и «TheNextFunction» -- функции
code1 & code2 -- параметры функции
Подбор грамматики
G[Z]
по языку
L
Любой язык, назовём его G <Z> в независимости от его классификации и функционального назначения содержит следующие базисные элементы: G <Z> ={ Vt, Vn, Z, P }, где:
Vt - словарь терминальных символов
Vn - словарь нетерминальных символов
Z - начальный нетерминальный символ
P - множество правил вывода
Для языка G <Оператор> имеем следующие множества:
Vt ={ 0, 1, 2, ... , 9 ; a, b, c, d, ... ,z ; A, B, C, ..., Z; <, >, = };
Vn ={«Оператор», «УслВыр», «Терм», «Операнд», «Функция», «Идентификатор», «Скобки», «Целое» };
Z = { «Оператор» };
P = {
1. < Оператор > - IF ( < УслВыр > ) < Функция > [ ELSE < Функция > ]
2. < УслВыр > - T | T < T | T > T | T = T
3. < Операнд > - «Идентификатор» | «ЦБЗ»
4. < Функция > - < Идентификатор > (< Список параметров >);
5. < Список параметров > - < Параметр > | W
6. < Параметр > - «Идентификатор» | «ЦБЗ» | W
7. < Идентификатор > - Б { Б | Ц }
}
Классификация
G[Z]
1. < Оператор > - IF ( < УслВыр > ) < Функция > [ ELSE < Функция > ]
2. < УслВыр > - T | T < T | T > T | T = T
3. < Операнд > - «Идентификатор» | «ЦБЗ»
4. < Функция > - < Идентификатор > (< Список параметров >);
5. < Список параметров > - < Параметр > | W
6. < Параметр > - «Идентификатор» | «ЦБЗ» | W
7. < Идентификатор > - Б { Б | ЦБЗ }
Сделаем замену нетерминальных символов:
< Оператор > - Z
< УслВыр > - A
< Терм > - B
< Функция > - C
< Список параметров > - D
< Параметр > - E
< Идентификатор > - F
Сделаем замену терминальных символов:
IF - a
( - b
) - c
; - d
ELSE - e
ЦБЗ - f
Б - g
W - h
1. Z - abAcC [ eC ]
2. A - B | B < B | B > B | B = B
3. B - F | f
4. C - FbDcd
5. D - E | h
6. E - F | f | h
7. F - g { g | f }
Вывод : G[Z] - автоматная грамматика.
Выбор метода анализа
Ссылаясь на однозначность выбранной грамматики, принимая во внимание хорошо разработанные системы анализа выбираем метод рекурсивного спуска – как базовый метод языкового процессора.
Диагностика и нейтрализация ошибок
Разработанный алгоритм относится к общеизвестному методу синтаксического разбора, предложенный Айресом.
Основная идея метода состоит в том, что по контексту без возврата отбрасываюся те символы, которые привели в тупиковую ситуацию и разбор продолжается.
Для наглядности изобразим куст синтаксического разбора для входного языка:
Дано:
IF ( A < Bc ) BULL () ;
1. Z - abAcC [ eC ]
2. A - B | B < B | B > B | B = B
3. B - F | f
4. C - FbDcd
5. D - E | h
6. E - F | f | h
7. F - g { g | f }
Z
a b A c C
B
B F b c d
F F g { g }
g
g {g}
g g g g
IF ( A < Bc ) BULL ( ) ;
Тестирование на цепочках
Протестируем данную программу на следующей языковой цепочке:
IF ( A < B ) BULL ( );
<
Оператор
>
a b <
УслВыражение
> c <
Функция
>
<
Терм
>
<
Терм
>
<
Идент
> b c d
<
Идент
> <
Идент
> g { g }
g
g {g}
g g g g
IF ( A < B ) BULL ( ) ;
1. Проверка на нетерминальный символ IF
2. Проверка на терминальный символ « ( »
3. Проверка на условное выражение
3.1 Проверка на терм
3.2 Проверка на знак
3.3 Проверка на терм
4. Проверка на терминальный символ « ) »
5. Проверка на функцию
5.1 Проверка на имя функции
5.2 Проверка на наличие терминального символа « ( »
5.3 Проверка на параметр функции (может и отсутствовать)
5.4 Проверка на наличие терминального символа « ) »
6. Проверка на терминальный символ « ; »
Вывод: ошибок не обнаружено
|