Форум программистов, компьютерный форум, киберфорум
Python
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.60/25: Рейтинг темы: голосов - 25, средняя оценка - 4.60
 Аватар для Askania
0 / 0 / 0
Регистрация: 14.11.2013
Сообщений: 23

Разделение большого текста из файла на токены

15.06.2014, 20:38. Показов 4958. Ответов 7
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Всем привет!
Читаю питоном текстовый документ и нигде не могу найти, как его разделить на токены.

Python
1
2
3
4
5
6
7
8
9
#!/bin/usr/python3
 
import re
 
iFile = open("emma.txt", "r")
for line in iFile:
    print(line)
 
re.split(r"[ |.]+", line)
re.split?
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
15.06.2014, 20:38
Ответы с готовыми решениями:

Разделение большого файла
У меня есть файл с текстом, его надо разбить на несколько более маленьких файлов(условно, 5) как это сделать? есть какие то специальные...

Разделение файла с большого на мелкие
Нужно прочитать большой файл, определить сколько в нем строк и разбить его по 5% от его общего объема в разные файлы. Например, если...

Разделение большого Excel файла н
Добрый день. Есть большой Excel файл в 35000 строк. Есть интервалы строк, по которым нужно разбить этот файл. Например: 3457-3468;...

7
 Аватар для Wolkodav
842 / 480 / 58
Регистрация: 18.09.2012
Сообщений: 1,688
16.06.2014, 01:51
Askania, ну без регулярок вообще говоря можно:
Python
1
2
3
4
iFile = open("emma.txt", "r")
for line in iFile:
    line.split(s)# где s - это некий разделитель( [U]один[/U]), возвращается массив строк.
    print(line)
Добавлено через 51 секунду
Askania, ну а вообще да, есть такое в модуле re/
1
6 / 6 / 1
Регистрация: 13.12.2015
Сообщений: 398
22.03.2017, 07:27
Wolkodav, скажите пожалуйста, а как учесть окончания? Чтобы читал слово день как дни, дня. Это был один токен
0
440 / 432 / 159
Регистрация: 21.05.2016
Сообщений: 1,338
22.03.2017, 07:32
Цитата Сообщение от Wolkodav Посмотреть сообщение
Askania, ну без регулярок вообще говоря можно:
Python
1
    line.split(s)# где s - это некий разделитель( [U]один[/U]), возвращается массив строк.
s здесь ни что иное как регулярка
0
6 / 6 / 1
Регистрация: 13.12.2015
Сообщений: 398
22.03.2017, 07:35
oldnewyear, тогда текст разобьется просто на токены. Дни и день будут считаться разными токенами. Как бы словарь подцепить. Если токен похож на дни это токен день, т.е. заменить все токены (дни, день, дня) на токен день
0
440 / 432 / 159
Регистрация: 21.05.2016
Сообщений: 1,338
22.03.2017, 10:55
Wolkodav

Цитата Сообщение от oldnewyear Посмотреть сообщение
s здесь ни что иное как регулярка
извиняюсь, напутал я чего-то..
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
22.03.2017, 13:21
Цитата Сообщение от studentrm Посмотреть сообщение
Как бы словарь подцепить. Если токен похож на дни это токен день, т.е. заменить все токены (дни, день, дня) на токен день
Это называется лемматизация - приведение слова к нормальной форме.
Обработка естественного языка на Python
0
6 / 6 / 1
Регистрация: 13.12.2015
Сообщений: 398
23.03.2017, 23:42
Garry Galler, подскажите пожалуйста с чего начать. Сделал код, который ищет к первому предложению самое близкое по словам. Нужно определить тему каждому отрывку. Исходник файл excel столбец. С чего начать
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
23.03.2017, 23:42
Помогаю со студенческими работами здесь

Разделение на токены
Здравствуйте! Мне нужно разделить математическое выражение на токены без использования каких-либо дополнительных пакетов. Вот пример моего...

Разделение на текстовые токены
Хочу наконец-то сделать более читабельную структуру своего языка программирования. Мне нужно чтобы такие команды обрабатывались нормально,...

Разделение строки на токены
Разжуйте пожалуйста тупорылому, как работает эта программа что откуда появляется и куда выодить и что делает? непонимаю.. урок из...

Разделение большого файла на несколько маленьких потоками
using System; using System.IO; using System.Text; using System.Threading; namespace ConsoleApp1 { class Program { ...

Разделение большого файла на несколько маленьких c потоками
Реализовать программу по созданию множества мелких файлов из одного большого, размер маленьких файлов произвольный, количество потоков...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
8
Ответ Создать тему
Новые блоги и статьи
Символьное дифференцирование
igorrr37 13.02.2026
/ * Логарифм записывается как: (x-2)log(x^2+2) - означает логарифм (x^2+2) по основанию (x-2). Унарный минус обозначается как ! в-строка - входное арифметическое выражение в инфиксной(обычной). . .
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL3_image
8Observer8 10.02.2026
Содержание блога Библиотека SDL3_image содержит инструменты для расширенной работы с изображениями. Пошагово создадим проект для загрузки изображения формата PNG с альфа-каналом (с прозрачным. . .
Установка Qt-версии Lazarus IDE в Debian Trixie Xfce
volvo 10.02.2026
В общем, достали меня глюки IDE Лазаруса, собранной с использованием набора виджетов Gtk2 (конкретно: если набирать текст в редакторе и вызвать подсказку через Ctrl+Space, то после закрытия окошка. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru