[2020年新版东南大学编译原理词法分析器实验报告] 语法分析实验报告

　词法分析设计

　实验目的通过本实验的编程实践，了解词法分析的任务，掌握词法分析程序设计的原理和构造方法，对编译的基本概念、原理和方法有完整的和清楚的理解，并能正确地、熟练地运用。

　实验内容

　用C++语言实现对C++语言子集的源程序进行词法分析。通过输入源程序从左到右对字符串进行扫描和分解，依次输出各个单词的内部编码及单词符号自身值；若遇到错误则显示

　“ Error ”，然后跳过错误部分继续显示；同时进行标识符登记符号表的管理。

　实验原理

　本次实验采用 NFA->DFA->DFA0的过程：

　对待分析的简单的词法（关键词 /id/num/运算符/空白符等）先分别建立自己的 FA,然

　后将他们用三产生式连接起来并设置一个唯一的开始符，终结符不合并。

　待分析的简单的词法

　（1 ）关键字：

　"asm","auto","bool","break","case","catch","char","class","co nst","co nst_cast"

　（2）界符（查表）

　";",",","（","）","[","]","{","}"

　（3）运算符

　"*" "/" "%" " + "I!I!

　"*" "/" "%" " + "

　""A" "|" " + + " " " " + 一" " 一" "*一" "/一" "% 一" "&一"

　"A=" "|="

　relop :

　（3 J? inrLuni>J “LidlL金、辑*

　（3 J? inrLuni>

　J “Lidl

　金、

　辑*?I lelup EQ）

　rckp LTk

　（4）其他单词是标识符（ID）和整型常数（SUM,通过正规式定义。

　id/keywords:

　l?lier ur ditfii

　digit:

　空格有空白、制表符和换行符组成。空格一般用来分隔 ID、SUM运算符、界符和关

　键字，词法分析阶段通常被忽略。

　空白、制表符和换行符

　相关自动机描述

　DFA:

　》rt*如柿忙曾” 7

　沪址卅片/缈 $：疋r吟，

　!"丿

　B K*** (吗"他豎秽如I必作?> ) 豹比如l疋第&D d鹫如

　Uf r+=) 叩弋 0p j--J

　P 址仙TJ >比虹巾iff, r J

　步letmt『甲,/3 ) 卩代如d冷』/ ) F 戌曲呵申] ?此阪5打￡包 ) 疋如I叩JQ i?如 frt? n j

　j)址如H [ f

　DFA0

　■'t

　流程图

　核心数据结构描述

　(1)生成的token序列由name type、attr 保存。

　struct token{

　stri ng n ame;

　stri ng type;

　int attr;

　}；

　(2)本文的大多数数据结构都用

　map来保存，优点是查找方便，大大提高时间复杂度。

　map<stri ng.

　int

　> Keywords; //

　保存关键字

　map<stri ng,

　int

　> Sep;

　保存界符

　map<stri ng,

　int

　> Relop;

　保存比较运算符

　map<stri ng,

　int

　> Op;

　保存其他运算符

　map<stri ng,

　int

　>id;

　保存输入字符串中的id

　map<stri ng,

　int

　>n um;

　保存数字

　vectorvtoken>Token; // 保存token序列，大小未知，所以采用 vector保存

　核心算法描述

　(1) void addToken(string s, int type)s 为找到的字符串，type 为可能类型。

　将分析出来的token()序列添加到Token序列表中。如果是类型为 1，查看关键词表，

　若找到，其类型为关键词并将其以类型为关键词存储到 Token表中；若未找到，则查找 id

　表，若找到，说明该id已经出现过，否则添加新的 id到id表中，将该i字符串以类型为 id添加到Token表中。如果类型为2,在界符表中查找，如果找到以类型为界符存储到 Token

　表中，同理其他几种类型。可能类型为 1--5，如果出现其他类型表示是词法分析器中发现

　额错误，将错误信息记录下来。

　void addToken(string s, int type)

　{

　switch (type){

　case 1:

　l_i t=Keywords.fi nd(s);

　if (l_it!=Keywords.end()){

　token t={s, "keywords" ,l」t->second};

　Toke n.push_back(t);

　}else {

　l」t=id.fi nd(s);

　if (l_it==id.end())

　{

　id[s]=idNum;

　token t={s, "id" ,idNum++};

　Toke n.push_back(t);

　} else {

　token t={s, "id" ,l」t->second};

　Toke n.push_back(t);

　}

　break;

　case 2:

　l_it=Sep.fi nd(s);

　if (l_it!=Sep.end()){

　token t={s, "separatrix" ,l_it->second};

　Toke n.push_back(t);

　}

　break;

　case 3:

　l」t=Op.fi nd(s);

　if (l_it!=Op.end()){

　token t={s, "op" ,l_it->second};

　Toke n.push_back(t);

　}

　break;

　case 4:

　l_it=Relop.fi nd(s);

　if (l_it匸Relop.end()){

　token t={s, "relop" ,l」t->second};

　Toke n.push_back(t);

　}

　break;

　case 5:

　l」t=n um.fi nd(s);

　if (l_it==num.end())

　{

　n um[s]=nNum;

　toke n t={s, "n um", nN um++};

　Toke n.push_back(t);

　}else {

　token t={s, "num",l_it->second};

　Toke n.push_back(t);

　}

　break;

　default : //error

　token t={s, "id" ,-1};

　Toke n.push_back(t);

　break;

　}

　(2) void lexical。词法分析器，按字符读入文法并对其进行处理。

　从状态0开始处理，如果是空白符则一直在状态 0,如果第一个字符为字母，继续往后寻找，直至不

　是字母或是数字结束；若第一个字符为数字，将其拼凑成一个数字，数字可以有小数点等，详细见状

　态转换图，注意以数字开头容易岀现一种例如 3a类型的错误，所以以数字开头的一定要往下多找

　如果后面紧跟着字母则报错。addToken()添加到 Token 表

　如果后面紧跟着字母则报错。

　addToken()添加到 Token 表

　void lexical()

　{

　fstream ln( "E:\l n.txt" );

　char ch,tempch;

　int state=0;

　string s= "" ,key="";

　while (!ln.eof())

　{

　switch (state){

　case 0: ch=ln .get();

　s=ch;

　if (ch==13||ch==10||ch==32||ch==9) {state=0; s= "" ;}

　else

　(ch== '<' ) state=1;

　else

　(ch== '=' ) state=6;

　else

　(ch== '>' ) state=9;

　else

　(isLetter(ch)) state=13;

　else

　(isDigit(ch)) state=15;

　else

　(ch== '+' ||ch== '-' ||ch== '*' ||ch== '/' ||ch== '&' ||ch== '|')

　{ state=20; tempch=ch;}

　else

　(ch== s' ) state=44;

　else

　(isSep(ch)!=-1) state=47;

　else

　(isOp(s)!=-1) state=48;

　else

　(isRelop(s)!=-1) state=49;

　else

　state=50;

　//error

　break;

　case 1: ch=ln .get();

　if (ch== '=' ||ch== '>' ) state=2;

　else if (ch=='<‘ ) state=4;

　else state=5;

　break;

　case 2:

　s+=ch;

　addToke n( s,4);

　state=0;

　break;

　case 4: s+=ch;

　addToke n(s,3);

　state=0;

　break;

　case 5: //*

　addToke n( s,4);

　In. seekg(-1,ios::cur); state=0;

　break;

　case 6: ch=ln .get();

　if (ch== '=' ) state=7;

　else state=8;

　break;

　case 7:

　s+=ch;

　addToke n( s,4);

　state=0;

　break;

　case 8: //*

　addToke n(s,3);

　ln. seekg(-1,ios::cur); state=0;

　break;

　case 9: ch=ln .get();

　if (ch== '=' ) state=10;

　else if (ch=='>' ) state=11;

　else state=12;

　break;

　case 10:

　s+=ch;

　addToke n( s,4);

　state=0;

　break;

　case 11:

　s+=ch;

　addToke n(s,3);

　state=0;

　break;

　case 12: //*

　state=0; addToke n( s,4);

　ln. seekg(-1,ios::cur); break;

　case 13: ch=ln. get();

　if (isDigit(ch)||isLetter(ch)) s+=ch;

　else state=14;

　break;

　case 14: //*

　state=0;

　addToke n( s,1);

　ln. seekg(-1,ios::cur); break;

　case 15: ch=ln. get();

　if (isDigit(ch)) s+=ch;

　else if (ch=='.')

　{

　s+=ch;

　state=16;

　} else state=18; break;

　case 16: ch=ln. get();

　s+=ch;

　if (isDigit(ch)) state=17;

　else state=50; //error

　break;

　case 17: ch=ln. get();

　if (isDigit(ch)){

　s+=ch;

　state=17;

　} else state=18;

　break;

　case 18: //*

　if (isLetter(ch))

　{

　s+=ch;

　state=50;

　} else {

　addToke n( s,5);

　ln. seekg(-1,ios::cur);

　state=0;

　}

　break;

　case 20: ch=ln. get();

　if (ch==tempch||ch== '=' ) state=21;

　else state=23;

　break;

　case 21:

　s+=ch;

　addToke n(s,3);

　state=0;

　break;

　case 23:

　addToke n(s,3);

　In. seekg(-1,ios::cur);

　state=0;

　break;

　case 44: ch=ln. get();

　if (ch== '=' ) state=45;

　else state=46;

　break;

　case 45:

　s+=ch;

　addToke n(s,3);

　break;

　case 46:

　addToke n(s,3);

　ln. seekg(-1,ios::cur);

　break;

　case 47:

　addToke n(s,2);

　state=0;

　break;

　case 48:

　addToke n(s,3);

　state=0;

　break;

　case 49:

　addToke n( s,4);

　state=0;

　break;

　case 50: //error

　while ((ch=ln.get())!=EOF){

　if (isSep(ch)!=-1||ch==13||ch==10||ch==32||ch==9) break;

　else s+=ch;

　}

　addToke n( s,6); //error

　ln. seekg(-1,ios::cur);

　state=0;

　break;

　default :

　break;

　}

　7.测试用例

　待测字符串：

　void fun()

　{

　int a=2,b=3,3a;

　a++;b--;

　a+=b;

　b*=a;

　int c=a+4;

　int d=b*5;

　}

　产生结果在out.txt 中（注意，无论输入输出文件都要保存在 E盘根目录下）

　tolten sequence:

　luktii

　attri

　void

　keywords

　fun

　scpci'atriz

　)

　sep^ratrii

　(

　ini

　kc/wuL'dt

　num

　seperatrix

　—

　￡

　num

　?亠

　sepsratri y

　Error

　pepsraTri/

　卄

　叩

　sep^ratrix

　——

　□p

　* a

　scpcxatriz id

　sepsratriy

　s^Dsr^tri y

　In-t

　keywords

　—

　05>

　num

　separatrix

　iti\

　keywurds

　* CT 0

　B EUJD 3

　kmyvrands :

　ariitc

　b沁

　break

　c^.?e

　st ch

　char

　class

　corst

　c^rtinuc

　default

　delete

　dnublr

　d/ramic 扫家

　else

　旳inn

　extern

　f^lcs

　float

　for

　魂

　friend

　goto

　ini inc

　int

　1 DUg

　mutable

　niinesrace

　n沖

　opera! or

　separalrli 0

　separalrlz 叩

　private protectel rublic register reint reti_trii slujrt signed nizecF static etatic_eagt struct switch teril>late this throw true try

　lyptri J tyi.ensne uni ai unsigned ueine vli' tual void volati1e while

　3 4 5 6 7 8 9 o 1 2 4 5 6 7 s o u 1 2 3 4 5 & 7 8 9 -u

　3 3 3 3 3 3 3 目 a 召勺 4 ￡ 4 ^-5655555555^

　stfaratrix:

　(

　)

　relop：

　7 s E 1 3 2 q

　2 1 s 1 u 1 3 114 11

　id; a b

　fun

　nun：

　出现的问题与解决方案

　本实验的难点就是进行有效地进行状态如转换，先对每一个简单部分，如空白符、 id、

　digit等画出自动机状态，然后由 NFA->DFA添加一个唯一的初始状态，巳产生式连接。再

　将DFA中等价的状态合并最后变成 DFA0这样便大大简化了代码量，也使得逻辑思维更加

　清晰。

　自我体会

　将理论运用到实际，不仅可以帮我们更好地复习理论知识，还可以让我们发发掘到一些更深刻层面上的东

　西。通过本次实验，我深入了解了词法分析的过程，对 NFA,DFA,DFAO之间的转换也更能更

　加熟练地运用。这次实验还有许多需要加强的地方，比如还可以对id的类型进行明确分类，

　是函数还是变量，是什么类型的，返回类型是什么等等。之后有机会的话，我一定会更加深入的研究，将这个实验更加完善。

推荐访问:词法分析器编译东南大学新版