Форум программистов, компьютерный форум, киберфорум
Python: Научные вычисления
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.75/4: Рейтинг темы: голосов - 4, средняя оценка - 4.75
 Аватар для IRIP
514 / 146 / 28
Регистрация: 18.04.2015
Сообщений: 1,904
Записей в блоге: 16

Обработка большого объема данных (теги сайта)

24.09.2018, 19:58. Показов 963. Ответов 2
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Есть сайт, у него

таблица tags

207,168 штук MyISAM utf8_general_ci 16 МБ весом =)

нужно их обработать


Под обработать, понимаю следующее: в тегах встречаются море подобных слов:

id tag target item_id

65838 &ndash content 3335
65837 тренера content 3335
65834 ансамбля content 3335

65832 образования content 3335

65826 акции content 3334

418 фотоприколы photo 53
419 фотоприколы photo 54
501 bb-code blogpost 27

256592 цветов content 30949
256590 истории content 30949
256587 государственного content 30949
256588 государственных content 30949



как это все обработать... единственное, что приходит в голову:

1. Взять базу существительных, сравнить все теги с базой существительных, преобразовав тренера -> тренер, образования -> образование

2. Проверить на дубли, чтобы для каждого item_id был только один уникальный объект, например разные id у "государственного" и "государственных" но все они принадлежат к item_id 30949
а нужно, чтобы согласно правилу №1 осталось только государство а одно из "государственных" или "государственного" сначала преобразовались в государство а потом одно из, (старшее по id) было удалено, как дубль.

3. Если встречается
232711 #mehndi_evpa_shellac #мехендиевпатория #мехендикры... blogpost 3128
то ... (еще не придумал)

Добавлено через 3 минуты
4. Почистить теги, поскольку встречаются

48479 &nbsp отдых content 1998
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
24.09.2018, 19:58
Ответы с готовыми решениями:

Обработка большого объема данных
Добрый ночи ребята помогите с одной проблемой. У на старом сайте одного проекта есть база в которой находятся больше 5 000 записей (+...

Обработка большого объема данных
Не знал, куда адресовать вопрос (в какую тему), поэтому решил сюда. Имеется большой объем данных по нескольким значениям по времени. Нужно...

Обработка большого объёма данных (10гб)
Добрый день. Прошу прощения, если пишу не туда или не нашёл ответа через поиск. Суть вопроса. Пришел ко мне заказчик со следующей...

2
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
24.09.2018, 20:32
Цитата Сообщение от IRIP Посмотреть сообщение
преобразовав тренера -> тренер, образования -> образование
Это называется лемматизация (приведение слова к нормальной форме и для этого в python есть морфоанализатор pymophy2.
Цитата Сообщение от IRIP Посмотреть сообщение
MyISAM
MyISAM - устаревший движок в MySQL. Нет транзакций и внешних ключей, нет самовосстановления, плохая сортировка и т.д.
Уже с версий MySQL 5.5 и MariaDB 10.1 по умолчанию InnoDB.
1
 Аватар для IRIP
514 / 146 / 28
Регистрация: 18.04.2015
Сообщений: 1,904
Записей в блоге: 16
24.09.2018, 22:44  [ТС]
Garry Galler, да, я уже в MariaDB
но этому моему сайту уже 10 лет, и там ооочень много данных (база 3.2 гиг)

по-этому, постепенно перевожу таблицы, переписывается, где это возможно... В планах вообще перенести это все на django (как вариант)

Спасибо!
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
24.09.2018, 22:44
Помогаю со студенческими работами здесь

Передача большого объема данных (большого количества фотографий)
Есть веб-сервис ASP.NET, который работает по http протоколу. Однако есть необходимость передавать фотографии. передаю их в составе...

Обработка большого объема текстовых файлов
Необходимо определить по координатам в файлах(около 10000) к какому из этих файлов принадлежат проверяемые координаты, фигуры в файлах не...

Обработка большого объема без нагрузки
Добрый ночи ребята помогите с одной проблемой. У на старом сайте одного проекта есть база в которой находятся больше 5 000 записей (+...

Обработка большого объема информации в таблице типа MEMORY
Здравствуйте. Есть сайт на CMS Joomla с базой данных на MySQL. В Joomla есть функция поиска, работающая на индексации всего контента сайта....

Перенос большого объёма данных
Доброго дня. На сервере есть директория с картинками общим весом 60 gb. Свободное место - 20 gb Хочу перенести эти картинки на другой...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
Видеокарта простаивает ночами? Вот 4 проекта, которые загрузят её наукой
Programma_Boinc 10.04.2026
Видеокарта простаивает ночами? Вот 4 проекта, которые загрузят её наукой Если на Windows стоит дискретная NVIDIA или AMD — можно отдать её вычислительную мощность реальным исследованиям. . . .
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий
anaschu 08.04.2026
https:/ / github. com/ shumilovas/ med2. git main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели 8ATzM_2aurI
Блокировка документа от изменений, если он открыт у другого пользователя
Maks 08.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2. Задача: запретить редактирование документа, если он открыт у другого пользователя. / / . . .
Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка.
Hrethgir 08.04.2026
Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои. А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .
Модель ЗдрввоСохранения 7: больше работников, больше ресурсов.
anaschu 08.04.2026
работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20% kYBz3eJf3jQ
Дальние перспективы сервера - слоя сети с космологическим дизайном интефейса карты и логики.
Hrethgir 07.04.2026
Дальнейшее ближайшее планирование вывело к размышлениям над дальними перспективами. И вот тут может быть даже будут нужны оценки специалистов, так как в дальних перспективах всё может очень сильно. . .
Горе от ума
kumehtar 07.04.2026
Эта мне ментальная установка, что вот прямо сейчас, мол, мне для полного счастья не хватает (нужное вписать), и когда я этого достигну - тогда и полный кайф. Одна из самых сильных ловушек на пути. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru