Форум программистов, компьютерный форум, киберфорум
Python: Научные вычисления
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.75/4: Рейтинг темы: голосов - 4, средняя оценка - 4.75
 Аватар для IRIP
514 / 146 / 28
Регистрация: 18.04.2015
Сообщений: 1,904
Записей в блоге: 16

Обработка большого объема данных (теги сайта)

24.09.2018, 19:58. Показов 930. Ответов 2
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Есть сайт, у него

таблица tags

207,168 штук MyISAM utf8_general_ci 16 МБ весом =)

нужно их обработать


Под обработать, понимаю следующее: в тегах встречаются море подобных слов:

id tag target item_id

65838 &ndash content 3335
65837 тренера content 3335
65834 ансамбля content 3335

65832 образования content 3335

65826 акции content 3334

418 фотоприколы photo 53
419 фотоприколы photo 54
501 bb-code blogpost 27

256592 цветов content 30949
256590 истории content 30949
256587 государственного content 30949
256588 государственных content 30949



как это все обработать... единственное, что приходит в голову:

1. Взять базу существительных, сравнить все теги с базой существительных, преобразовав тренера -> тренер, образования -> образование

2. Проверить на дубли, чтобы для каждого item_id был только один уникальный объект, например разные id у "государственного" и "государственных" но все они принадлежат к item_id 30949
а нужно, чтобы согласно правилу №1 осталось только государство а одно из "государственных" или "государственного" сначала преобразовались в государство а потом одно из, (старшее по id) было удалено, как дубль.

3. Если встречается
232711 #mehndi_evpa_shellac #мехендиевпатория #мехендикры... blogpost 3128
то ... (еще не придумал)

Добавлено через 3 минуты
4. Почистить теги, поскольку встречаются

48479 &nbsp отдых content 1998
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
24.09.2018, 19:58
Ответы с готовыми решениями:

Обработка большого объема данных
Добрый ночи ребята помогите с одной проблемой. У на старом сайте одного проекта есть база в которой находятся больше 5 000 записей (+...

Обработка большого объема данных
Не знал, куда адресовать вопрос (в какую тему), поэтому решил сюда. Имеется большой объем данных по нескольким значениям по времени. Нужно...

Обработка большого объёма данных (10гб)
Добрый день. Прошу прощения, если пишу не туда или не нашёл ответа через поиск. Суть вопроса. Пришел ко мне заказчик со следующей...

2
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
24.09.2018, 20:32
Цитата Сообщение от IRIP Посмотреть сообщение
преобразовав тренера -> тренер, образования -> образование
Это называется лемматизация (приведение слова к нормальной форме и для этого в python есть морфоанализатор pymophy2.
Цитата Сообщение от IRIP Посмотреть сообщение
MyISAM
MyISAM - устаревший движок в MySQL. Нет транзакций и внешних ключей, нет самовосстановления, плохая сортировка и т.д.
Уже с версий MySQL 5.5 и MariaDB 10.1 по умолчанию InnoDB.
1
 Аватар для IRIP
514 / 146 / 28
Регистрация: 18.04.2015
Сообщений: 1,904
Записей в блоге: 16
24.09.2018, 22:44  [ТС]
Garry Galler, да, я уже в MariaDB
но этому моему сайту уже 10 лет, и там ооочень много данных (база 3.2 гиг)

по-этому, постепенно перевожу таблицы, переписывается, где это возможно... В планах вообще перенести это все на django (как вариант)

Спасибо!
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
24.09.2018, 22:44
Помогаю со студенческими работами здесь

Передача большого объема данных (большого количества фотографий)
Есть веб-сервис ASP.NET, который работает по http протоколу. Однако есть необходимость передавать фотографии. передаю их в составе...

Обработка большого объема текстовых файлов
Необходимо определить по координатам в файлах(около 10000) к какому из этих файлов принадлежат проверяемые координаты, фигуры в файлах не...

Обработка большого объема без нагрузки
Добрый ночи ребята помогите с одной проблемой. У на старом сайте одного проекта есть база в которой находятся больше 5 000 записей (+...

Обработка большого объема информации в таблице типа MEMORY
Здравствуйте. Есть сайт на CMS Joomla с базой данных на MySQL. В Joomla есть функция поиска, работающая на индексации всего контента сайта....

Перенос большого объёма данных
Доброго дня. На сервере есть директория с картинками общим весом 60 gb. Свободное место - 20 gb Хочу перенести эти картинки на другой...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США. Нашел на реддите интересную статью под названием «Кто-нибудь знает, где получить бесплатный компьютер или. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru