Форум программистов, компьютерный форум, киберфорум
Python: Научные вычисления
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
 
Рейтинг 4.86/268: Рейтинг темы: голосов - 268, средняя оценка - 4.86
0 / 0 / 0
Регистрация: 16.11.2012
Сообщений: 62

Строка: Произведите токенизацию строк, то есть разбиение текстов на слова.

17.11.2016, 13:37. Показов 50786. Ответов 25
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Коллеги выручайте, застрял на совершенно простом задании, толкните простым понятным кодом.

Задание такое:

1. Скачайте файл с предложениями (sentences.txt)

2. Каждая строка в файле соответствует одному предложению. Считайте их, приведите каждую к нижнему регистру с помощью строковой функции lower().
Реализовал таким образом:
Python
1
2
3
file_obj = open('sentences.txt', 'r')
str=file_obj.xreadlines()
a=(str.read().lower())
3. Произведите токенизацию, то есть разбиение текстов на слова. Для этого можно воспользоваться регулярным выражением, которое считает разделителем любой символ, не являющийся буквой: re.split('[^a-z]', t). Не забудьте удалить пустые слова после разделения.
Реализовал таким образом:
Python
1
2
import re
b = re.split('[^a-z]', a)
убрал пустые слова:
Python
1
2
b = [x for x in b if x]
print b
4. Составьте список всех слов, встречающихся в предложениях. Сопоставьте каждому слову индекс от нуля до (d - 1), где d — число различных слов в предложениях. Для этого удобно воспользоваться структурой dict.
Реализовал таким способом:
Python
1
2
3
4
5
6
words={}
numb=0
for w in b:
    if w not in words:
        words[w] = numb
        numb += 1
и отсортировал:
Python
1
2
3
4
for znach in (sorted(val for key,val in words.items())):
       for key,val in words.items():
            if val==znach:
                print(key,val)
а дальше....затык, не могу найти понять как всё сопоставить и сделать из этого матрицу, я совсем новичок в питоне и дело встало, нужна помощь с комментами, если не сложно, спасибо..

5. Создайте матрицу размера n * d, где n — число предложений. Заполните ее: элемент с индексом (i, j) в этой матрице должен быть равен количеству вхождений j-го слова в i-е предложение. У вас должна получиться матрица размера 22 * 254.

6. Найдите косинусное расстояние от предложения в самой первой строке (In comparison to dogs, cats have not undergone...) до всех остальных с помощью функции scipy.spatial.distance.cosine. Какие номера у двух предложений, ближайших к нему по этому расстоянию (строки нумеруются с нуля)? Эти два числа и будут ответами на задание.
0
Лучшие ответы (1)
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
17.11.2016, 13:37
Ответы с готовыми решениями:

Строка, разбиение строк
Всем привет, необходимо считать тхт файл и условно разбить его на логические блоки(по сути это тест, между вопросами пустая строка)....

Разбиение строк на слова в текстовом файле
Здравствуйте. Помогите пожалуйста с программой. "Дан текстовый файл. Необходимо считать из файла строки, разбить строки на слова....

Есть ли в классе строк или в алгоритмах разбиение строку на лексемы?
Собственно сабж, как говорится. Хотел переписать программу, которую делал с Си строками и массивом Си строк. Сделана она была не совсем...

25
1 / 1 / 0
Регистрация: 09.04.2018
Сообщений: 5
11.04.2018, 11:52
Студворк — интернет-сервис помощи студентам
StackOverflow, не получается повторить код на Python 2, что не так

Добавлено через 17 часов 22 минуты
archimeds, помогите новичку, не могу решить задачу про кошек, до момента описанного архимедом все понятно, дальше полный ступор. Сижу 5-й день, все что рекомендовано на форуме Coursera прочитал. Толку ноль. С кодом StackOverflow ничего не понятно, нужно больше комментариев по командам. Повторить на втором Питоне не смог, в elif пишет ошибку. Help me!
0
1741 / 913 / 480
Регистрация: 05.12.2013
Сообщений: 3,074
11.04.2018, 12:28
fsv20, у пользователя archimeds последнее сообщение 21.11.2016, лучше новую тему создайте и опишите подробно условие задачи и ошибки в коде
0
1 / 1 / 0
Регистрация: 09.04.2018
Сообщений: 5
12.04.2018, 12:10
сделал снимок кода, описание задачи в начале темы про сравнение текста. Не очень хотелось плодить одинаковые темы на форуме.
0
1741 / 913 / 480
Регистрация: 05.12.2013
Сообщений: 3,074
12.04.2018, 18:56
В In [41] j+=1 должно быть под if, а то бесконечный цикл получается
0
0 / 0 / 0
Регистрация: 13.05.2018
Сообщений: 2
14.05.2018, 07:54
Цитата Сообщение от archimeds Посмотреть сообщение
5. Создайте матрицу размера n * d, где n — число предложений. Заполните ее: элемент с индексом (i, j) в этой матрице должен быть равен количеству вхождений j-го слова в i-е предложение. У вас должна получиться матрица размера 22 * 254.
6. Найдите косинусное расстояние от предложения в самой первой строке (In comparison to dogs, cats have not undergone...) до всех остальных с помощью функции scipy.spatial.distance.cosine. Какие номера у двух предложений, ближайших к нему по этому расстоянию (строки нумеруются с нуля)? Эти два числа и будут ответами на задание.
Добрый день, вам удалось найти решение по вопросам 5 и 6 ?
Напишите пож-та алгоритм решения. Спасибо.

Добавлено через 7 часов 24 минуты
Помогите пож-та по заданию выше в Python 2.7.
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
14.05.2018, 11:11
Пост StackOverflow - первый ответ в теме: решение по 5 и 6.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
14.05.2018, 11:11
Помогаю со студенческими работами здесь

Считывание строк текста из файла, разбиение их на слова, сортировка слов по алфавиту
Ввести текст из файла, а также массив символов-разделителей с клавиатуры. Собрать новый текст, сформированный по следующему признаку: в...

Есть строка в которой есть слова (получаем от пользователя). Вывести в одно сообщение сколько букв в каждом слове
Например: Строка: Я люблю кушать. На экран выводит: 1 5 6

Разбиение строки на слова - вынести разбиение в отдельную функцию
задача из Яндекс Практикума(вроде простая, но нет). Я уже два дня пытаюсь это реализовать, написал несколько вариантов, работают. Но...

Строка: Добавить в строковый класс функцию, которая создает строку, содержащую пересечение двух строк, то есть общие символы для двух строк.
Добавить в строковый класс функцию, которая создает строку, содержащую пересечение двух строк, то есть общие символы для двух строк....

Обменяйте местами элементы следующих строк: первая строка – n-я строка, вторая строка – (n-1)-я строка, третья
2. Обменяйте местами элементы следующих строк: первая строка – n-я строка, вторая строка – (n-1)-я строка, третья строка – (n-2)-я строка и...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
26
Ответ Создать тему
Новые блоги и статьи
Философия технологии
iceja 01.02.2026
На мой взгляд у человека в технических проектах остается роль генерального директора. Все остальное нейронки делают уже лучше человека. Они не могут нести предпринимательские риски, не могут. . .
SDL3 для Web (WebAssembly): Вывод текста со шрифтом TTF с помощью SDL3_ttf
8Observer8 01.02.2026
Содержание блога В этой пошаговой инструкции создадим с нуля веб-приложение, которое выводит текст в окне браузера. Запустим на Android на локальном сервере. Загрузим Release на бесплатный. . .
SDL3 для Web (WebAssembly): Сборка C/C++ проекта из консоли
8Observer8 30.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
SDL3 для Web (WebAssembly): Установка Emscripten SDK (emsdk) и CMake для сборки C и C++ приложений в Wasm
8Observer8 30.01.2026
Содержание блога Для того чтобы скачать Emscripten SDK (emsdk) необходимо сначало скачать и уставить Git: Install for Windows. Следуйте стандартной процедуре установки Git через установщик. . . .
SDL3 для Android: Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 29.01.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами. Версия v3 была полностью переписана на Си, в. . .
Инструменты COM: Сохранение данный из VARIANT в файл и загрузка из файла в VARIANT
bedvit 28.01.2026
Сохранение базовых типов COM и массивов (одномерных или двухмерных) любой вложенности (деревья) в файл, с возможностью выбора алгоритмов сжатия и шифрования. Часть библиотеки BedvitCOM Использованы. . .
SDL3 для Android: Загрузка PNG с альфа-каналом с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 28.01.2026
Содержание блога SDL3 имеет собственные средства для загрузки и отображения PNG-файлов с альфа-каналом и базовой работы с ними. В этой инструкции используется функция SDL_LoadPNG(), которая. . .
SDL3 для Android: Загрузка PNG с альфа-каналом с помощью SDL3_image
8Observer8 27.01.2026
Содержание блога SDL3_image - это библиотека для загрузки и работы с изображениями. Эта пошаговая инструкция покажет, как загрузить и вывести на экран смартфона картинку с альфа-каналом, то есть с. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru