Форум программистов, компьютерный форум, киберфорум
Теория программирования
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.66/50: Рейтинг темы: голосов - 50, средняя оценка - 4.66
 Аватар для RazorQ
591 / 357 / 16
Регистрация: 06.02.2009
Сообщений: 1,386

Разбиение строки на лексемы

15.08.2009, 21:30. Показов 9377. Ответов 7
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Вроде бы обычное, простое дело: разбить строку на лексемы, определённые "подсветить" и записать в выходной файл. Но возникли трудности. Задача состоит в следующем:
У меня есть строка. Слова, они же лексемы, разделяются следующими знаками.
C++
1
char delim[] = "(){}[]<>;\'\"=+-*., "
Это, возможно, не полный список. В процессе определюсь.
Так же у меня есть строка, считанная из входного файла. Нужно, разбить эту строку на символы в delim. Я делаю так.
C++
1
2
3
char *token;
char buf[]; // строка из файла
token = strtok(buf, delim);
Допустим строка (содержится в buf) имеет такой вид
C++
1
// программа перевода в *html файл
После получения деления строки в token остаётся "//". После второго вызова в token находится "программа". Я записываю в выходной файл лексему, полученную в первый раз ("//") и потом записываю лексему, полученную во второй раз. И получается
C++
1
//программа...
Может пример неудачный, но вопрос заключается в том, как сохранить символы-делители? Вообщем я пишу программу, которая переводит исходные тексты программ в файл *.html. Как можно выделить из текста лексему, не потеряв символы?
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
15.08.2009, 21:30
Ответы с готовыми решениями:

Чтение строки с файла, разбиение на лексемы и вывод по алфавиту
Долго мучился, и набросал вот такой код: #include&lt;stdio.h&gt; #include&lt;string.h&gt; #include&lt;conio.h&gt; #include&lt;stdlib.h&gt; ...

Парсинг строк, разбиение строки на лексемы, регулярные выражения, разделители
недавно столкнулся с небольшой проблемой, необходимо выполнить казалось бы элементарную задачу - разделить строку, символы разделители...

Разделение строки на лексемы с strtok, проверка длины каждой лексемы (выдает ошибку)
я именно вот разделяю строку на лексемы и хочу проверить длину каждой лексемы, потом выполнить действия в зависимости от длины..но...

7
 Аватар для Gravity
577 / 571 / 65
Регистрация: 29.01.2009
Сообщений: 1,274
15.08.2009, 21:41
Цитата Сообщение от RazorQ Посмотреть сообщение
Как можно выделить из текста лексему, не потеряв символы?
Могу предложить предварительно копировать строку куда-нибудь, прежде чем резать ее на токены.
0
 Аватар для RazorQ
591 / 357 / 16
Регистрация: 06.02.2009
Сообщений: 1,386
15.08.2009, 21:43  [ТС]
Gravity, я не совсем понял как это делается. Нет, как скопировать строку я знаю, но что потом делать? Допустим у меня есть две одинаковые строки, из одной я достаю слово, записываю его в файл, а что дальше?
0
 Аватар для Gravity
577 / 571 / 65
Регистрация: 29.01.2009
Сообщений: 1,274
15.08.2009, 22:14
RazorQ, расскажи подробнее для чего тебе потом нужны символы-рзделители, как именно ты хочешь их использовать? А то я не совсем понял задачу.
0
 Аватар для Otaka
1857 / 714 / 55
Регистрация: 11.12.2008
Сообщений: 1,019
15.08.2009, 22:48
Если бы это делалось на билдере, то я мог бы тебе дать свой парсер(он правда не очень удачный, я потом его переделывал) который я делал для своей попытки смастерить интерпретатор сишных программ. С такими задачами он справляется хорошо.
0
 Аватар для RazorQ
591 / 357 / 16
Регистрация: 06.02.2009
Сообщений: 1,386
16.08.2009, 10:07  [ТС]
Gravity, я делаю переводчик программ в *.html документы. Разбирвать строку на лексемы мне нужно для того, чтобы знать, есть ли ключевые слова(я потом из обрамляю тегами html). А символы мне нужны, чтобы программа переписывала весь файл-исходник, а не выборочно. Например в buf содержиться строка:
Code
1
if( argv != 2 )
А на выходе получаю
Code
1
if argv!=2)
При этом if подсвечивается синим. (это правильно, так и задумывалось)
Вопрос в том, как сохранить пробелы, скобочки для дальнейшей записи их в файл.
0
Эксперт С++
 Аватар для Phantom
3189 / 869 / 39
Регистрация: 29.12.2008
Сообщений: 951
16.08.2009, 10:48
Я думаю, что используя strtok(), выделяя лексемы-слова, нельзя никак получить разделители между ними.

Я бы решал задачу по-другому. Лучше сделать что-то вроде автомата, считывая в цикле buf посимвольно, и распознавая разделитель-не разделитель. Так обычно делается. Это труднее, но зато всё контролируешь.
Вот набросал примерный код:
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
#include <iostream>
#include <string>
using namespace std;
void main()
{
    string delim = "(){}[]<>;\'\"=+-*., ";
    string buf = "ff(<jkghj)oooo";               //пусть такой buf, для краткости
    string token="";
 
    for(int i=0; i<buf.length(); i++) 
        if (delim.find_first_of(buf[i])!=delim.npos)      //если текущий символ-разделитель, то...
        {
            if (!token.empty()) cout<<"tok: "<<token<<endl; //получили токен
            cout<<"raz: "<<buf[i]<<endl;                    //а это - разделитель.
            token="";
        }
        else token+=buf[i];  //иначе не разделитель, значит - часть токена, нужно включить.
    cout<<"tok: "<<token<<endl;    //это уже вне цикла - последний токен.
    system("pause");
}
Сделал на string, так быстрее и нагляднее. Главное - понять алгоритм, а там можно переделать на c-строки, как удобно. Надеюсь поможет. И подумаю на досуге, может всё же можно реализовать с помощью strtok, но пока в голову ничего не приходит.
1
 Аватар для Gravity
577 / 571 / 65
Регистрация: 29.01.2009
Сообщений: 1,274
16.08.2009, 16:31
Сишный вариант.
C
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
#include <stdio.h>
#include <string.h>
 
int main(void)
{
    int len;
    char s[] = "test <this> string;", *p;
    char delim[] = "(){}[]<>;\'\"=+-*., ";
 
    for(p = s; *p != '\0'; (len > 0) ? p += len : p++) {
        len = strcspn(p, delim);
        if(len == 0) {
            printf("delim: %c\n", *p);
            continue;
        }
        printf("token: %.*s\n", len, p);
    }
    return 0;
}
2
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
16.08.2009, 16:31
Помогаю со студенческими работами здесь

Разбиение на лексемы
Нужно написать программу, запрашивающую строку текста, разбивающую ее на лексемы и выводящую лексемы в обратном порядке. Желательно си, не...

Разбиение кода на лексемы
Добрый день. Интересует такой вопрос. Какие средства могут помочь при написании программы анализа исходного кода java?Необходимо исходный...

Split() и разбиение на лексемы
Доброго времени суток! Только подошел в изучению строк (String) и как понял, что в язык java они являются неизменяемыми объектами, но я бы...

Есть ли в классе строк или в алгоритмах разбиение строку на лексемы?
Собственно сабж, как говорится. Хотел переписать программу, которую делал с Си строками и массивом Си строк. Сделана она была не совсем...

Разбить строку на лексемы и вывести лексемы в обратном порядке.
Ребята, помогите. Получил такое задание: Напишите программу, которая вводит строку текста, разбивает ее на лексемы и выводит лексемы в...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
8
Ответ Создать тему
Новые блоги и статьи
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка. Рецензия / Мнение Это мой обзор планшета X220 с точки зрения школьника. Недавно я решила попытаться уменьшить свой. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru