|
|
|
Обработка большого объема данных (теги сайта)24.09.2018, 19:58. Показов 930. Ответов 2
Метки нет (Все метки)
Есть сайт, у него
таблица tags 207,168 штук MyISAM utf8_general_ci 16 МБ весом =) нужно их обработать Под обработать, понимаю следующее: в тегах встречаются море подобных слов: id tag target item_id 65838 &ndash content 3335 65837 тренера content 3335 65834 ансамбля content 3335 65832 образования content 3335 65826 акции content 3334 418 фотоприколы photo 53 419 фотоприколы photo 54 501 bb-code blogpost 27 256592 цветов content 30949 256590 истории content 30949 256587 государственного content 30949 256588 государственных content 30949 как это все обработать... единственное, что приходит в голову: 1. Взять базу существительных, сравнить все теги с базой существительных, преобразовав тренера -> тренер, образования -> образование 2. Проверить на дубли, чтобы для каждого item_id был только один уникальный объект, например разные id у "государственного" и "государственных" но все они принадлежат к item_id 30949 а нужно, чтобы согласно правилу №1 осталось только государство а одно из "государственных" или "государственного" сначала преобразовались в государство а потом одно из, (старшее по id) было удалено, как дубль. 3. Если встречается 232711 #mehndi_evpa_shellac #мехендиевпатория #мехендикры... blogpost 3128 то ... (еще не придумал) Добавлено через 3 минуты 4. Почистить теги, поскольку встречаются 48479   отдых content 1998
0
|
|
| 24.09.2018, 19:58 | |
|
Ответы с готовыми решениями:
2
Обработка большого объема данных Обработка большого объема данных Обработка большого объёма данных (10гб) |
|
|
|||
| 24.09.2018, 20:32 | |||
|
Уже с версий MySQL 5.5 и MariaDB 10.1 по умолчанию InnoDB.
1
|
|||
|
|
|
| 24.09.2018, 22:44 [ТС] | |
|
Garry Galler, да, я уже в MariaDB
но этому моему сайту уже 10 лет, и там ооочень много данных (база 3.2 гиг) по-этому, постепенно перевожу таблицы, переписывается, где это возможно... В планах вообще перенести это все на django (как вариант) Спасибо!
0
|
|
| 24.09.2018, 22:44 | |
|
Помогаю со студенческими работами здесь
3
Передача большого объема данных (большого количества фотографий) Обработка большого объема текстовых файлов Обработка большого объема без нагрузки Обработка большого объема информации в таблице типа MEMORY Перенос большого объёма данных Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
||||
|
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Нашел на реддите интересную статью под названием «Кто-нибудь знает, где получить бесплатный компьютер или. . .
|
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод
Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод.
Thinkpad X220 Tablet —. . .
|
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта
Симптом:
После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
|
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
|
Новый ноутбук
volvo 07.12.2025
Всем привет.
По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне:
Ryzen 5 7533HS
64 Gb DDR5
1Tb NVMe
16" Full HD Display
Win11 Pro
|
|
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
|
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
|
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов
На странице:
https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/
нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
|
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов.
. . .
|
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
|