[2020年新版东南大学编译原理词法分析器实验报告] 语法分析实验报告

  词法分析设计

 实验目的通过本实验的编程实践,了解词法分析的任务,掌握词法分析程序设计的原理和构造方 法,对编译的基本概念、原理和方法有完整的和清楚的理解,并能正确地、熟练地运用。

 实验内容

 用C++语言实现对C++语言子集的源程序进行词法分析。通过输入源程序从左到右对字 符串进行扫描和分解, 依次输出各个单词的内部编码及单词符号自身值; 若遇到错误则显示

 “ Error ”,然后跳过错误部分继续显示 ;同时进行标识符登记符号表的管理。

 实验原理

 本次实验采用 NFA->DFA->DFA0的过程:

 对待分析的简单的词法(关键词 /id/num/运算符/空白符等)先分别建立自己的 FA,然

 后将他们用三产生式连接起来并设置一个唯一的开始符,终结符不合并。

 待分析的简单的词法

 (1 )关键字:

 "asm","auto","bool","break","case","catch","char","class","co nst","co nst_cast"

 (2)界符(查表)

 ";",",","(",")","[","]","{","}"

 (3)运算符

 "*" "/" "%" " + "I!I!

 "*" "/" "%" " + "

 I!

 I!

 I!

 ""A" "|" " + + " " " " + 一" " 一" "*一" "/一" "% 一" "&一"

 "A=" "|="

 relop :

 (3 J? inrLuni>J “LidlL金、辑*

 (3 J? inrLuni>

 J “Lidl

 L

 金、

 辑*?I lelup EQ)

 rckp LTk

 (4)其他单词是标识符(ID)和整型常数(SUM,通过正规式定义。

 id/keywords:

 l?lier ur ditfii

 l?lier ur ditfii

 digit:

 空格有空白、制表符和换行符组成。空格一般用来分隔 ID、SUM运算符、界符和关

 键字,词法分析阶段通常被忽略。

 空白、制表符和换行符

 相关自动机描述

 DFA:

 》rt*如柿忙曾” 7

 沪址卅片/缈 $:疋r吟,

 !"丿

 B K*** (吗"他 豎秽如I必作?> ) 豹比如l疋第&D d鹫如

 Uf r+=) 叩弋 0p j--J

 P 址仙TJ >比虹巾iff, r J

 步letmt『甲,/3 ) 卩代如d冷』/ ) F 戌曲呵申] ?此阪5打£包 ) 疋如I叩JQ i?如 frt? n j

 j)址如H [ f

 DFA0

 L

 ■'t

 流程图

 5

 du

 核心数据结构描述

 (1)生成的token序列由name type、attr 保存。

 struct token{

 stri ng n ame;

 stri ng type;

 int attr;

 };

 (2)本文的大多数数据结构都用

 map来保存,优点是查找方便,大大提高时间复杂度。

 map<stri ng.

 int

 > Keywords; //

 保存关键字

 map<stri ng,

 int

 > Sep;

 //

 保存界符

 map<stri ng,

 int

 > Relop;

 //

 保存比较运算符

 map<stri ng,

 int

 > Op;

 //

 保存其他运算符

 map<stri ng,

 int

 >id;

 //

 保存输入字符串中的id

 map<stri ng,

 int

 >n um;

 //

 保存数字

 vectorvtoken>Token; // 保存token序列,大小未知,所以采用 vector保存

 核心算法描述

 (1) void addToken(string s, int type)s 为找到的字符串,type 为可能类型。

 将分析出来的token()序列添加到Token序列表中。如果是类型为 1,查看关键词表,

 若找到,其类型为关键词并将其以类型为关键词存储到 Token表中;若未找到,则查找 id

 表,若找到,说明该id已经出现过,否则添加新的 id到id表中,将该i字符串以类型为 id添加到Token表中。如果类型为2,在界符表中查找,如果找到以类型为界符存储到 Token

 表中,同理其他几种类型。可能类型为 1--5,如果出现其他类型表示是词法分析器中发现

 额错误,将错误信息记录下来。

 void addToken(string s, int type)

 {

 switch (type){

 case 1:

 l_i t=Keywords.fi nd(s);

 if (l_it!=Keywords.end()){

 token t={s, "keywords" ,l」t->second};

 Toke n.push_back(t);

 }else {

 l」t=id.fi nd(s);

 if (l_it==id.end())

 {

 id[s]=idNum;

 token t={s, "id" ,idNum++};

 Toke n.push_back(t);

 } else {

 token t={s, "id" ,l」t->second};

 Toke n.push_back(t);

 }

 break;

 case 2:

 l_it=Sep.fi nd(s);

 if (l_it!=Sep.end()){

 token t={s, "separatrix" ,l_it->second};

 Toke n.push_back(t);

 }

 break;

 case 3:

 l」t=Op.fi nd(s);

 if (l_it!=Op.end()){

 token t={s, "op" ,l_it->second};

 Toke n.push_back(t);

 }

 break;

 case 4:

 l_it=Relop.fi nd(s);

 if (l_it匸Relop.end()){

 token t={s, "relop" ,l」t->second};

 Toke n.push_back(t);

 }

 break;

 case 5:

 l」t=n um.fi nd(s);

 if (l_it==num.end())

 {

 n um[s]=nNum;

 toke n t={s, "n um", nN um++};

 Toke n.push_back(t);

 }else {

 token t={s, "num",l_it->second};

 Toke n.push_back(t);

 }

 break;

 default : //error

 token t={s, "id" ,-1};

 Toke n.push_back(t);

 break;

 }

 }

 (2) void lexical。 词法分析器,按字符读入文法并对其进行处理。

 从状态0开始处理,如果是空白符则一直在状态 0,如果第一个字符为字母,继续往后寻找,直至不

 是字母或是数字结束;若第一个字符为数字,将其拼凑成一个数字,数字可以有小数点等,详细见状

 态转换图,注意以数字开头容易岀现一种例如 3a类型的错误,所以以数字开头的一定要往下多找

 如果后面紧跟着字母则报错。addToken()添加到 Token 表

 如果后面紧跟着字母则报错。

 addToken()添加到 Token 表

 void lexical()

 {

 fstream ln( "E:\l n.txt" );

 char ch,tempch;

 int state=0;

 string s= "" ,key="";

 while (!ln.eof())

 {

 switch (state){

 case 0: ch=ln .get();

 s=ch;

 if (ch==13||ch==10||ch==32||ch==9) {state=0; s= "" ;}

 else

 if

 (ch== '<' ) state=1;

 else

 if

 (ch== '=' ) state=6;

 else

 if

 (ch== '>' ) state=9;

 else

 if

 (isLetter(ch)) state=13;

 else

 if

 (isDigit(ch)) state=15;

 else

 if

 (ch== '+' ||ch== '-' ||ch== '*' ||ch== '/' ||ch== '&' ||ch== '|')

 { state=20; tempch=ch;}

 else

 if

 (ch== s' ) state=44;

 else

 if

 (isSep(ch)!=-1) state=47;

 else

 if

 (isOp(s)!=-1) state=48;

 else

 if

 (isRelop(s)!=-1) state=49;

 else

 state=50;

 //error

 break;

 case 1: ch=ln .get();

 if (ch== '=' ||ch== '>' ) state=2;

 else if (ch=='<‘ ) state=4;

 else state=5;

 break;

 case 2:

 s+=ch;

 addToke n( s,4);

 state=0;

 break;

 case 4: s+=ch;

 addToke n(s,3);

 state=0;

 break;

 case 5: //*

 addToke n( s,4);

 In. seekg(-1,ios::cur); state=0;

 break;

 case 6: ch=ln .get();

 if (ch== '=' ) state=7;

 else state=8;

 break;

 case 7:

 s+=ch;

 addToke n( s,4);

 state=0;

 break;

 case 8: //*

 addToke n(s,3);

 ln. seekg(-1,ios::cur); state=0;

 break;

 case 9: ch=ln .get();

 if (ch== '=' ) state=10;

 else if (ch=='>' ) state=11;

 else state=12;

 break;

 case 10:

 s+=ch;

 addToke n( s,4);

 state=0;

 break;

 case 11:

 s+=ch;

 addToke n(s,3);

 state=0;

 break;

 case 12: //*

 state=0; addToke n( s,4);

 ln. seekg(-1,ios::cur); break;

 case 13: ch=ln. get();

 if (isDigit(ch)||isLetter(ch)) s+=ch;

 else state=14;

 break;

 case 14: //*

 state=0;

 addToke n( s,1);

 ln. seekg(-1,ios::cur); break;

 case 15: ch=ln. get();

 if (isDigit(ch)) s+=ch;

 else if (ch=='.')

 {

 s+=ch;

 state=16;

 } else state=18; break;

 case 16: ch=ln. get();

 s+=ch;

 if (isDigit(ch)) state=17;

 else state=50; //error

 break;

 case 17: ch=ln. get();

 if (isDigit(ch)){

 s+=ch;

 state=17;

 } else state=18;

 break;

 case 18: //*

 if (isLetter(ch))

 {

 s+=ch;

 state=50;

 } else {

 addToke n( s,5);

 ln. seekg(-1,ios::cur);

 state=0;

 }

 break;

 case 20: ch=ln. get();

 if (ch==tempch||ch== '=' ) state=21;

 else state=23;

 break;

 case 21:

 s+=ch;

 addToke n(s,3);

 state=0;

 break;

 case 23:

 addToke n(s,3);

 In. seekg(-1,ios::cur);

 state=0;

 break;

 case 44: ch=ln. get();

 if (ch== '=' ) state=45;

 else state=46;

 break;

 case 45:

 s+=ch;

 addToke n(s,3);

 break;

 case 46:

 addToke n(s,3);

 ln. seekg(-1,ios::cur);

 break;

 case 47:

 addToke n(s,2);

 state=0;

 break;

 case 48:

 addToke n(s,3);

 state=0;

 break;

 case 49:

 addToke n( s,4);

 state=0;

 break;

 case 50: //error

 while ((ch=ln.get())!=EOF){

 if (isSep(ch)!=-1||ch==13||ch==10||ch==32||ch==9) break;

 else s+=ch;

 }

 addToke n( s,6); //error

 ln. seekg(-1,ios::cur);

 state=0;

 break;

 default :

 break;

 }

 7.测试用例

 待测字符串:

 void fun()

 {

 int a=2,b=3,3a;

 a++;b--;

 a+=b;

 b*=a;

 int c=a+4;

 int d=b*5;

 }

 产生结果在out.txt 中(注意,无论输入输出文件都要保存在 E盘根目录下)

 tolten sequence:

 RE

 luktii

 attri

 void

 keywords

 58

 fun

 id

 0

 <

 scpci'atriz

 2

 )

 sep^ratrii

 3

 (

 6

 ini

 kc/wuL'dt

 27

 a

 id

 1

 2

 num

 0

 J

 seperatrix

 1

 h

 id

 2

 —

 op

 £

 3

 num

 1

 ?亠

 sepsratri y

 1

 Sa

 Error

 pepsraTri/

 0

 id

 1

 卄

 叩

 11

 sep^ratrix

 0

 id

 2

 ——

 □p

 12

 * a

 scpcxatriz id

 0

 1

 +=

 op

 13

 b

 id

 2

 *

 sepsratriy

 0

 h

 id

 2

 op

 15

 a

 id

 1

 s^Dsr^tri y

 0

 In-t

 keywords

 27

 c

 id

 3

 —

 05>

 6

 a

 id

 1

 +

 op

 4

 num

 J

 separatrix

 iti\

 keywurds

 27

 d

 id

 4

 * CT 0

 B EUJD 3

 kmyvrands :

 am

 ariitc

 b沁

 break

 c^.?e

 st ch

 char

 class

 corst

 c^rtinuc

 10

 default

 11

 delete

 12

 dj

 13

 dnublr

 14

 d/ramic 扫家

 15

 else

 16

 旳inn

 n

 IB

 extern

 19

 f^lcs

 20

 float

 21

 for

 魂

 friend

 23

 goto

 24

 if

 25

 ini inc

 26

 int

 2T

 1 DUg

 28

 mutable

 29

 niinesrace

 30

 n沖

 31

 opera! or

 32

 separalrli 0

 separalrlz 叩

 private protectel rublic register reint reti_trii slujrt signed nizecF static etatic_eagt struct switch teril>late this throw true try

 lyptri J tyi.ensne uni ai unsigned ueine vli' tual void volati1e while

 3 4 5 6 7 8 9 o 1 2 4 5 6 7 s o u 1 2 3 4 5 & 7 8 9 -u

 3 3 3 3 3 3 3 目 a 召勺 4 £ 4 ^-5655555555^

 /=

 stfaratrix:

 (

 )

 relop:

 7 s E 1 3 2 q

 2 1 s 1 u 1 3 114 11

 id; a b

 fun

 nun:

 2

 3

 4

 5

 出现的问题与解决方案

 本实验的难点就是进行有效地进行状态如转换,先对每一个简单部分,如空白符、 id、

 digit等画出自动机状态,然后由 NFA->DFA添加一个唯一的初始状态, 巳产生式连接。再

 将DFA中等价的状态合并最后变成 DFA0这样便大大简化了代码量,也使得逻辑思维更加

 清晰。

 自我体会

 将理论运用到 实际,不仅可以帮我们更好地复习理论知识, 还可以让我们发发掘到一些更深刻层面上的东

 西。通过本次实验,我深入了解了词法分析的过程,对 NFA,DFA,DFAO之间的转换也更能更

 加熟练地运用。这次实验还有许多需要加强的地方, 比如还可以对id的类型进行明确分类,

 是函数还是变量,是什么类型的,返回类型是什么等等。之后有机会的 话,我一定会更加深入的研究,将这个实验更加完善。

推荐访问:词法 分析器 编译 东南大学 新版