Форум программистов, компьютерный форум CyberForum.ru

Парсер - C++

Восстановить пароль Регистрация
 
Рейтинг: Рейтинг темы: голосов - 33, средняя оценка - 4.88
ForEveR
Модератор
Эксперт C++
 Аватар для ForEveR
7927 / 4709 / 318
Регистрация: 24.06.2010
Сообщений: 10,524
Завершенные тесты: 3
07.09.2011, 15:18     Парсер #1
Возник вопрос как лучше написать парсер. Интересно просто услышать советы.

Грамматика примерно такова.

C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
/* Grammar
 *
 * Expr : PrimaryCommand
 * PrimaryCommand : InsertCommand | SelectCommand | CreateCommand | DeleteCommand | AlterCommand | TruncateCommand |
 * UpdateCommand | DescCommand | ShowCommand | DropCommand | QuitCommand | HelpCommand
 * InsertCommand : insert Command Name Command ([Names]) Values
 * SelectCommand : select Names Command Name [Conditions]
 * CreateCommand : create Name (Names and Types)
 * DeleteCommand : delete Command Name [Conditions]
 * AlterCommand : alter Name Command [Names [and Types]]
 * TruncateCommand : truncate Name
 * UpdateCommand : update Name Command Names and Values [Conditions]
 * DescCommand : desc | describe Name
 * ShowCommand : show Name
 * DropCommand : drop Name
 * Help : help
 * QuitCommand : quit | exit
 * Names : list of Name
 * Name : name of table, variable ect
 * Command : one of from, where, into, values, set, add, change
 * Conditions : where Condition_
 * Condition_ : list of Condition linked by Operator
 * Condition : Name Oper | Func Value
 * Oper : one of =, <=, >=, !=, <, >
 * Value : string or number
 * Operator : and, or
 * Func : in ect.
 * Types : list of Type
 * Type : any of number, string
 * Names and Types : list of Name and Type 
 * Names and Values : list of Name Oper Type
 *
*/
Но это очень примерно.

Парсер написан сейчас примерно таким образом.


C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
namespace Tokens
{
 
enum Tokens_
{
    None_Token,
    Primary_Command_Token,
    Command_Token,
    Name_Token,
    Value_Token,
    Type_Token,
    Oper_Token,
    Func_Token
};
 
}
 
class Token
{
public:
    Token():token_type(Tokens::None_Token), value(std::string())
    {
    }
    Token(const Tokens::Tokens_& t_type, const std::string& val):token_type(t_type), value(val)
    {
    }
    std::string getValue() const 
    {
        return value;
    }
    Tokens::Tokens_ getType() const
    {
        return token_type;
    }
private:
    Tokens::Tokens_ token_type;
    std::string value;
};
        primary_commands = std::map<std::string, boost::function<bool(Parser*)>>
        {
            std::make_pair("create", &Parser::parseCreateCommand),
            std::make_pair("select", &Parser::parseSelectCommand),
            std::make_pair("insert", &Parser::parseInsertCommand),
            std::make_pair("delete", &Parser::parseDeleteCommand),
            std::make_pair("alter", &Parser::parseAlterCommand),
            std::make_pair("truncate", &Parser::parseTruncateCommand),
            std::make_pair("update", &Parser::parseUpdateCommand),
            std::make_pair("desc", &Parser::parseDescCommand),
            std::make_pair("describe", &Parser::parseDescCommand),
            std::make_pair("show", &Parser::parseShowCommand),
            std::make_pair("drop", &Parser::parseDropCommand),
            std::make_pair("quit", &Parser::parseQuitCommand),
            std::make_pair("exit", &Parser::parseQuitCommand),
            std::make_pair("help", &Parser::parseHelpCommand)
        };
        commands = std::map<std::string, boost::function<bool(Parser*)>>
        {
            std::make_pair("from", &Parser::parseFromCommand),
            std::make_pair("into", &Parser::parseIntoCommand),
            std::make_pair("set", &Parser::parseSetCommand),
            std::make_pair("values", &Parser::parseValuesCommand),
            std::make_pair("where", &Parser::parseWhereCommand)
        };
        types = {"number", "string"};
        opers = {'!', '>', '<', '='};
Главная функция такова.
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
    std::vector<Token> parse()
    {
        tokens.clear();
        std::string value;
        bool exit = false;
        while(exit != true)
        {
            Token last_token;
            if (!tokens.empty())
            {
                last_token = tokens.back();
            }
            switch(last_token.getType())
            {
                case Tokens::None_Token:
                {
                    value = getWithoutCharacters(" ");
                    if (primary_commands.find(value) == primary_commands.end())
                    {
                        std::cout << "Exception" << std::endl;
                        parserError("Expected primary command");
                    }
                    tokens.push_back(Token(Tokens::Primary_Command_Token, value));
                }
                break;
                case Tokens::Primary_Command_Token:
                {
                    exit = primary_commands[last_token.getValue()](this);
                }
                break;
            }
        }
        return tokens;
    }
Собственно вопрос один.

Как посоветовали бы сделать вы?
Лучшие ответы (1)
Similar
Эксперт
41792 / 34177 / 6122
Регистрация: 12.04.2006
Сообщений: 57,940
07.09.2011, 15:18     Парсер
Посмотрите здесь:

C++ Парсер HTML на C++
C++ Парсер
C++ PDF парсер
C++ парсер строки
Парсер HTML C++
После регистрации реклама в сообщениях будет скрыта и будут доступны все возможности форума.
Deviaphan
Делаю внезапно и красиво
Эксперт C++
 Аватар для Deviaphan
1283 / 1217 / 50
Регистрация: 22.03.2011
Сообщений: 3,744
07.09.2011, 15:39     Парсер #2
Судя по коду, строки 9-13 можно вынести из цикла и last_token присваивать после строки 24.
Ну и в строке 29 нет проверки на валидность last_token.GetValue(), т.е. если этого значения нет в мапе, то программа обидится. Но если такой ситуации быть не может, то оК тогда.
ForEveR
Модератор
Эксперт C++
 Аватар для ForEveR
7927 / 4709 / 318
Регистрация: 24.06.2010
Сообщений: 10,524
Завершенные тесты: 3
07.09.2011, 15:56  [ТС]     Парсер #3
Deviaphan, Про 9-13 согласен.
Про 29 - такой ситуации быть не может. Если комманды в мапе нет, то кидается error еще до этого.
ForEveR
Модератор
Эксперт C++
 Аватар для ForEveR
7927 / 4709 / 318
Регистрация: 24.06.2010
Сообщений: 10,524
Завершенные тесты: 3
09.09.2011, 14:31  [ТС]     Парсер #4
Написал через Спирит. Интересный опыт как минимум.

C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
#include <boost/config/warning_disable.hpp>
#include <boost/spirit/include/qi.hpp>
#include <boost/spirit/include/phoenix_core.hpp>
#include <boost/spirit/include/phoenix_operator.hpp>
#include <boost/spirit/include/phoenix_fusion.hpp>
#include <boost/spirit/include/phoenix_stl.hpp>
#include <boost/spirit/include/phoenix_object.hpp>
#include <boost/spirit/include/phoenix_statement.hpp>
#include <boost/bind.hpp>
 
#include <iostream>
#include <string>
#include <vector>
 
namespace fusion = boost::fusion;
namespace phoenix = boost::phoenix;
namespace qi = boost::spirit::qi;
namespace ascii = boost::spirit::ascii;
 
void push_tokens(std::vector<std::string>& tokens, const std::vector<std::string>& values)
{
    tokens.insert(tokens.end(), values.begin(), values.end());
}
 
void push_token(std::vector<std::string>& tokens, const std::string& val)
{
    tokens.push_back(val);
}
 
/* Grammar
 *
 * Expr : PrimaryCommand
 * PrimaryCommand : InsertCommand | SelectCommand | CreateCommand | DeleteCommand | AlterCommand | TruncateCommand |
 * UpdateCommand | DescCommand | ShowCommand | DropCommand | QuitCommand | HelpCommand
 * InsertCommand : insert into Name ([Names]) values (Values);
 * SelectCommand : select Names | * from Name [Conditions];
 * CreateCommand : create Name (Names and Types);
 * DeleteCommand : delete from Name [Conditions];
 * AlterCommand : alter Name Alter_add | Alter_drop | Alter_alter;
 * TruncateCommand : truncate Name;
 * UpdateCommand : update Name set Names and Values [Conditions];
 * DescCommand : desc | describe Name
 * ShowCommand : show Name
 * DropCommand : drop Name
 * Help : help
 * QuitCommand : quit | exit
 * Names : Name +[, Name]
 * Name : name of table, variable ect
 * Conditions : where Condition +[Cond Condition];
 * Condition : Name Oper Value
 * Oper : = | <= | >= | != | < | >
 * Value : value
 * Cond : and | or
 * Types : Type +[, Type]
 * Type : number | string
 * Not_null : not null | " "
 * Name and Type : Name Type Not_null
 * Names and Types : Name and Type +[, Name and Type]
 * Name and Value : Name = Value
 * Names and Values : Name and Value +[, Name and Value]
 *
*/
 
template<typename Iterator>
struct sql_grammar:qi::grammar<Iterator, std::vector<std::string>(), qi::locals<std::string>, ascii::space_type>
{
    sql_grammar():sql_grammar::base_type(root, "sql")
    {
        using qi::lit;
        using qi::lexeme;
        using qi::on_error;
        using qi::fail;
        using qi::omit;
        using ascii::char_;
        using ascii::string;
 
        using phoenix::construct;
        using phoenix::val;
        using phoenix::push_back;
        
        type = string("number") | string("string");
        name = lexeme[+(char_("a-zA-Z0-9_"))];
        not_null_spec = string("not null") | string("");
        value = lexeme[+(char_("a-zA-Z0-9_"))];
        oper = string("=") | string("!=") | string("<=") | string(">=") | string("<") | string(">");
        cond = string("and") | string("or");
 
        names = name [push_back(qi::_val, qi::_1)]
            > -(+(omit[char_(',')] > name [push_back(qi::_val, qi::_1)]))
        ;
 
        name_and_type = name [push_back(qi::_val, qi::_1)]
            > type [push_back(qi::_val, qi::_1)]
            > not_null_spec [push_back(qi::_val, qi::_1)]
        ;
 
        name_and_value = name [push_back(qi::_val, qi::_1)]
            > string("=") [push_back(qi::_val, qi::_1)]
            > value [push_back(qi::_val, qi::_1)]
        ;
 
        names_and_values = name_and_value [boost::bind(&push_tokens, ref(tokens), _1)]
            > -(+(omit[char_(',')] > name_and_value [boost::bind(&push_tokens, ref(tokens), _1)]))
        ;
 
        names_and_types = name_and_type [boost::bind(&push_tokens, ref(tokens), _1)]
            > -(+(omit[char_(',')] > name_and_type [boost::bind(&push_tokens, ref(tokens), _1)]))
        ;
        
        values = value [push_back(qi::_val, qi::_1)]
            > -(+(omit[char_(',')]> value [push_back(qi::_val, qi::_1)]))
        ;
        
        condition = name [push_back(qi::_val, qi::_1)]
            > oper [push_back(qi::_val, qi::_1)]
            > value [push_back(qi::_val, qi::_1)]
        ;
 
        conditions = condition [boost::bind(&push_tokens, ref(tokens), _1)]
            > -(+(cond [boost::bind(&push_token, ref(tokens), _1)]
            > condition [boost::bind(&push_tokens, ref(tokens), _1)]))
        ;
 
        where = string("where") [boost::bind(&push_token, ref(tokens), _1)]
            > conditions;
        
        alter_add = string("add") [boost::bind(&push_token, ref(tokens), _1)]
            > names_and_types
        ;
 
        alter_drop = string("drop") [boost::bind(&push_token, ref(tokens), _1)]
            > names [boost::bind(&push_tokens, ref(tokens), _1)]
        ;
 
        alter_alter = string("alter") [boost::bind(&push_token, ref(tokens), _1)]
            > names_and_types
        ;
 
        create = string("create") [boost::bind(&push_token, ref(tokens), _1)]
            > name [boost::bind(&push_token, ref(tokens), _1)]
            > omit[char_('(')] > names_and_types > omit[char_(')')]
            > omit[char_(';')]
        ;
 
        insert = string("insert") [boost::bind(&push_token, ref(tokens), _1)]
            > string("into") [boost::bind(&push_token, ref(tokens), _1)]
            > name [boost::bind(&push_token, ref(tokens), _1)]
            > -(omit[char_('(')] > names [boost::bind(&push_tokens, ref(tokens), _1)] > omit[char_(')')])
            > string("values") [boost::bind(&push_token, ref(tokens), _1)]
            > omit[char_('(')] > values [boost::bind(&push_tokens, ref(tokens), _1)] > omit[char_(')')]
            > omit[char_(';')]
        ;
        
        select = string("select") [boost::bind(&push_token, ref(tokens), _1)]
            > (names [boost::bind(&push_tokens, ref(tokens), _1)] | string("*") [boost::bind(&push_token, ref(tokens), _1)])
            > string("from") [boost::bind(&push_token, ref(tokens), _1)]
            > name [boost::bind(&push_token, ref(tokens), _1)]
            > -where
            > omit[char_(';')]
        ;
 
        delete_ = string("delete") [boost::bind(&push_token, ref(tokens), _1)]
            > string("from") [boost::bind(&push_token, ref(tokens), _1)]
            > name [boost::bind(&push_token, ref(tokens), _1)]
            > -where
            > omit[char_(';')]
        ;
        
        update = string("update") [boost::bind(&push_token, ref(tokens), _1)]
            > name [boost::bind(&push_token, ref(tokens), _1)]
            > string("set") [boost::bind(&push_token, ref(tokens), _1)]
            > names_and_values
            > -where
            > omit[char_(';')]
        ;
        
        alter = string("alter") [boost::bind(&push_token, ref(tokens), _1)]
            > name [boost::bind(&push_token, ref(tokens), _1)]
            > (alter_add | alter_drop | alter_alter)
            > omit[char_(';')]
        ;
        
        truncate = string("truncate") [boost::bind(&push_token, ref(tokens), _1)]
            > name [boost::bind(&push_token, ref(tokens), _1)]
            > omit[char_(';')]
        ;
        
        drop = string("drop") [boost::bind(&push_token, ref(tokens), _1)]
            > name [boost::bind(&push_token, ref(tokens), _1)]
            > omit[char_(';')]
        ;
        
        desc = (string("desc") | string("describe")) [boost::bind(&push_token, ref(tokens), _1)]
            > name [boost::bind(&push_token, ref(tokens), _1)]
            > -omit[char_(';')]
        ;
 
        show = (string("show")) [boost::bind(&push_token, ref(tokens), _1)]
            > -omit[char_(';')]
        ;
 
        quit = (string("quit") | string("exit")) [boost::bind(&push_token, ref(tokens), _1)]
            > -omit[char_(';')]
        ;
 
        help = string("help") [boost::bind(&push_token, ref(tokens), _1)]
            > -omit[char_(';')]
        ;
 
        root = create | insert | select | delete_ | update | alter | truncate
            | drop | desc | show | quit | help;
        
        root.name("expression");
        create.name("create command");
        table_name_for_create.name("table name");
        name_and_type.name("name and type");
        names_and_types.name("names and types");
        type.name("value type");
        name.name("name");
        names.name("names");
        insert.name("insert command");
        value.name("value");
        values.name("values");
        select.name("select command");
        cond.name("cond");
        condition.name("condition");
        conditions.name("conditions");
        where.name("where");
        delete_.name("delete");
        name_and_value.name("name and value");
        names_and_values.name("names and values");
        alter_add.name("alter add command");
        alter_drop.name("alter drop command");
        alter_alter.name("alter alter command");
        alter.name("alter command");
        truncate.name("truncate command");
        drop.name("drop command");
        desc.name("describe command");
        show.name("show command");
        quit.name("quit command");
        help.name("help command");
 
        on_error<fail>
        (
           root,
           std::cout << val("Error! Expected ")
           << qi::_4
           << val(" here: \"")
           << construct<std::string>(qi::_3, qi::_2)
           << val("\"")
           << std::endl
        );
    }
    
    qi::rule<Iterator, std::vector<std::string>(), qi::locals<std::string>, ascii::space_type> root;
    qi::rule<Iterator, std::vector<std::string>(), ascii::space_type> names_and_types, name_and_type, names,
        create, values, insert, select, where, conditions, condition, delete_, names_and_values, name_and_value,
        update, alter_add, alter_drop, alter_alter, alter, truncate, drop, desc, show, quit, help;
    qi::rule<Iterator, std::string(), ascii::space_type> table_name_for_create, type, name, not_null_spec, value,
        oper, cond;
 
    std::vector<std::string> tokens;
};
 
int main()
{
    std::string command;
    std::getline(std::cin, command);
    std::vector<std::string> vec;
    using boost::spirit::ascii::space;
    sql_grammar<std::string::const_iterator> sql;
    std::string::const_iterator begin = command.begin();
    std::string::const_iterator end = command.end();
    bool r = phrase_parse(begin, end, sql, space, vec);
    if (r && begin == end)
    {
        std::cout << "PARSING SUCCESFULL" << std::endl;
        std::copy(sql.tokens.begin(), sql.tokens.end(), std::ostream_iterator<std::string>(std::cout, "\n"));
    }
    else
    {
        std::cout << "PARSING FAILED" << std::endl;
    }
}
Deviaphan
Делаю внезапно и красиво
Эксперт C++
 Аватар для Deviaphan
1283 / 1217 / 50
Регистрация: 22.03.2011
Сообщений: 3,744
09.09.2011, 15:11     Парсер #5
Экскьюзьмуа за нубский вопрос, но есть ли по спириту русско-язычные доки?
А то что-то совсем он тяжко даётся, почти ничего не понятно... старею...
А код впечатляюще выглядит.)
fasked
Эксперт C++
 Аватар для fasked
4924 / 2504 / 180
Регистрация: 07.10.2009
Сообщений: 4,306
Записей в блоге: 1
09.09.2011, 15:14     Парсер #6
ForEveR, только-только хотел предложить тебе spirit
Deviaphan, с бустом и русским языком вообще тяжело, максимум что удается найти это несколько туториалов на каких-нибудь русскоязычных ресурсах.
MoreAnswers
Эксперт
37091 / 29110 / 5898
Регистрация: 17.06.2006
Сообщений: 43,301
09.09.2011, 15:28     Парсер
Еще ссылки по теме:

C++ парсер
Простой парсер C++
C++ Парсер

Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
Deviaphan
Делаю внезапно и красиво
Эксперт C++
 Аватар для Deviaphan
1283 / 1217 / 50
Регистрация: 22.03.2011
Сообщений: 3,744
09.09.2011, 15:28     Парсер #7
Сообщение было отмечено автором темы, экспертом или модератором как ответ

Не по теме:

Наверное, мои проблемы с освоением спирита связаны с не очень хорошим знанием БНФ.)
Буду курить мануалы...



Добавлено через 8 минут
Вот что курить буду:
http://sindicollo.blogspot.com/2008/09/boost.html
http://www.solarix.ru/for_developers...ary-list.shtml
Yandex
Объявления
09.09.2011, 15:28     Парсер
Ответ Создать тему
Опции темы

Текущее время: 04:59. Часовой пояс GMT +3.
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2016, vBulletin Solutions, Inc.
Рейтинг@Mail.ru