Форум программистов, компьютерный форум, киберфорум
Python: Базы данных
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
 
10 / 12 / 0
Регистрация: 20.07.2011
Сообщений: 430

Объединение БД

18.01.2021, 16:26. Показов 3237. Ответов 27
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Я чайник.
У меня есть 4 БД. В каждой или 43 или 51 поле и записей в каждой более 10 млн.
Есть 4 задачи которые я должна решить.
1/5 данных нужно использовать для анализа, остальное для тестирования.

Как удобнее и быстрее:
1) убрать лишнее из каждой базы по отдельности, а потом объединить
или сначала объединить, а потом чистить?
2) Можно ли (нужно ли) выделить 1/5 каждой базы сразу, ещё до объединения?
3) Все 4 задачи решать сразу или по очереди? Т.е. данные сразу отбирать или смотреть их
4 раза в соответствии с задачами.
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
18.01.2021, 16:26
Ответы с готовыми решениями:

Объединение двух таблиц (запрос на объединение)
В аналогичных темах не нашел решения. Возможно кто-то сможет помочь в решении следующей задачи: Есть таблицы (f_2021, f_2022 ) их...

Объединение таблиц (внешнее объединение)
Подскажите как правильно выполнить запрос объединения таблиц? Допустим есть у меня 2 таблицы: (* - ключ) 1) Клиенты - *код_клиенты...

Использование подзапроса, левое внешнее объединение, правое внешнее объединение
Помогите составить три данных запроса

27
Эксперт Python
 Аватар для dondublon
4652 / 2072 / 366
Регистрация: 17.03.2012
Сообщений: 10,182
Записей в блоге: 6
19.01.2021, 09:55
Непонятно, что значит "объединить". Создать новую базу? Ну так заполняйте её целенаправленно теми записями, которые нужны.
0
Модератор
Эксперт Python
 Аватар для Fudthhh
2695 / 1601 / 513
Регистрация: 21.02.2017
Сообщений: 4,210
Записей в блоге: 1
19.01.2021, 10:17
Дилендик, если кратко: 4 * 10e6 * 43 = 172 * 10e6 - много записей не так-ли? Отсюда следует вывод, что стоит только один раз проходиться по ней циклом.

Остальные вопросы непонятны.
0
10 / 12 / 0
Регистрация: 20.07.2011
Сообщений: 430
19.01.2021, 11:01  [ТС]
Я уже это поняла. У меня старенький системный блок (13 лет, 3.2 индекс производительности). Даже просто открыть полностью одну базу в экселе не получилось. База урезалась и открывалась более 10 минут. Почитать, посмотреть фильм, пообщаться в соц. сетях мне хватает.
Цитата Сообщение от DmFat Посмотреть сообщение
что стоит только один раз проходиться по ней циклом.
Чисто гипотетически.
Все задачи решать за один проход.
А если базу не скачивать, а сразу в интернете отбирать из неё нужные данные. Есть такая возможность?
0
Модератор
Эксперт Python
 Аватар для Fudthhh
2695 / 1601 / 513
Регистрация: 21.02.2017
Сообщений: 4,210
Записей в блоге: 1
19.01.2021, 11:04
Дилендик, без разницы откуда ты ее берешь, идешь по строчно по базе и выполняешь поставленные тебе задачи.
0
10 / 12 / 0
Регистрация: 20.07.2011
Сообщений: 430
19.01.2021, 11:20  [ТС]
Цитата Сообщение от DmFat Посмотреть сообщение
идешь по строчно по базе и выполняешь поставленные тебе задачи.
Результаты выводятся как запросы бд аксесс или как таблицы эксель?
1
0 / 0 / 0
Регистрация: 19.01.2021
Сообщений: 1
19.01.2021, 11:28
тоже интересует этот вопрос
0
Эксперт Python
 Аватар для dondublon
4652 / 2072 / 366
Регистрация: 17.03.2012
Сообщений: 10,182
Записей в блоге: 6
19.01.2021, 13:32
Какой ещё excel? Он не для БД, он для небольших объемов, которые правим вручную.
0
19.01.2021, 13:42

Не по теме:

dondublon, я решил закрыть глаза на этот топик, как я понял это тонкий троллинг.

0
10 / 12 / 0
Регистрация: 20.07.2011
Сообщений: 430
19.01.2021, 15:18  [ТС]
БД скачалась в формате CSV. Это разве не таблица?

Добавлено через 1 минуту
Опен офис открыл его как таблицу (эксель показал пустое место).

Добавлено через 3 минуты
Т.е. надо было аксесом открывать?
0
Эксперт Python
 Аватар для dondublon
4652 / 2072 / 366
Регистрация: 17.03.2012
Сообщений: 10,182
Записей в блоге: 6
19.01.2021, 15:22
Дилендик, таблица - понятие растяжимое.
CSV вам не нужен. С миллионами записей будет долго, он не для этого.
Работайте с базами, как с базами. И да, что на выходе хотите получить?

Добавлено через 3 минуты
Дилендик, вам вообще не надо стараться "открыть" вашу базу полностью, как единый файл. Это не документ.

Вам надо её прочитать. То есть получить какие-то записи выборочно. А такие вещи делаются через специальные интерфейсы, зависит от программы, которая управляет вашей базой.
0
10 / 12 / 0
Регистрация: 20.07.2011
Сообщений: 430
19.01.2021, 17:50  [ТС]
У меня бд с информацией о парковочных талонах округа Вайоминг за 5 лет.
Мне нужно, к примеру, определить где чаще всего нарушается парковка и ещё 3 задачи.
С интернета информация скачивается в формате csv.
Цитата Сообщение от dondublon Посмотреть сообщение
CSV вам не нужен
и как же тогда?
Я наверное сильно торможу, но не понимаю.
Мне нужно информацию переводить в табличную форму или как-то так работать с тем, что есть сразу?
Если так, то помогите, киньте ссылку, куда посмотреть, где почитать.
Объяснить где я туплю, наверное долго. У меня то время есть, а захочет ли кто из вас с этим связываться.
Если надо переводить в табличную форму, то возвращаемся к
Цитата Сообщение от Дилендик Посмотреть сообщение
Как удобнее и быстрее:
1) убрать лишнее из каждой базы по отдельности, а потом объединить
или сначала объединить, а потом чистить?
2) Можно ли (нужно ли) выделить 1/5 каждой базы сразу, ещё до объединения?
Добавлено через 2 минуты
Про
Цитата Сообщение от Дилендик Посмотреть сообщение
3) Все 4 задачи решать сразу или по очереди? Т.е. данные сразу отбирать или смотреть их
4 раза в соответствии с задачами.
я поняла. Надо сразу решать все задачи.
0
Эксперт Python
 Аватар для dondublon
4652 / 2072 / 366
Регистрация: 17.03.2012
Сообщений: 10,182
Записей в блоге: 6
19.01.2021, 19:10
Дилендик, csv - это текстовый формат. Его единственное преимущество в том, что он универсальный, легко читается - не нужны специальные программы и драйверы. Он служит для ОБМЕНА между системами.
Зачем вообще придуманы СУБД? Для того, чтобы хранить МНОГО данных. И ворочать ими быстро. Как видите, совершенно иные задачи, чем у CSV.
СУБД умеет также делать выборку. Причём тоже, как правило, умеют делать это быстро.

Соответственно, если вы работаете в рамках одной СУБД (не базы, а системы), то CSV вам - ни к чему. Ведь нет речи про обмен между разнородными системами.

Если данные вам предоставляются только в виде CSV - то деваться некуда. Тогда делаете свою базу, в неё импортируете таблицы. Это будет долго и мучительно, зато потом, после импорта, будет быстро и весело.

Добавлено через 2 минуты
Но тогда и формулировать задание надо было иначе. Не "объединение БД", ведь БД у вас пока нет
0
10 / 12 / 0
Регистрация: 20.07.2011
Сообщений: 430
19.01.2021, 19:38  [ТС]
Цитата Сообщение от dondublon Посмотреть сообщение
Если данные вам предоставляются только в виде CSV - то деваться некуда. Тогда делаете свою базу, в неё импортируете таблицы
Как это делать?
Сразу всё в одну БД или в две (1/5 и 4/5)?
Только нужные для решения задачи данные (может это как-то делается) или полностью все подряд?
Где найти примеры (в каких источниках, понятых даже чайнику)?
0
963 / 718 / 276
Регистрация: 10.12.2016
Сообщений: 1,764
19.01.2021, 19:54
Цитата Сообщение от Дилендик Посмотреть сообщение
У меня бд с информацией о парковочных талонах округа Вайоминг за 5 лет.
если это сетевая база, вам нужно запрос к ней составить, а не качать все подряд
киньте ссылку, поглядим
0
10 / 12 / 0
Регистрация: 20.07.2011
Сообщений: 430
19.01.2021, 20:15  [ТС]
Книги
1. Плас Дж. Вандер Python для сложных задач: наука о данных и машинное обучение. — СПб.: Питер, 2018.
2. Шакла Нишант Машинное обучение и TensorFlow. — СПб.: Питер, 2019.
Пойдут в качестве источников или есть что-то более простое или более полное, качественное, свежее,
доступное даже для чайников? Т.е. что Вам самим нравится и Вы рекомендуете в свете моих вопросов.
Здесь, я ответов "в лоб" не нашла. Искать дальше?
0
963 / 718 / 276
Регистрация: 10.12.2016
Сообщений: 1,764
19.01.2021, 20:28
Цитата Сообщение от Дилендик Посмотреть сообщение
доступное даже для чайников
https://www.sqlitetutorial.net/sqlite-import-csv/
попробуйте это по одному файлу
0
10 / 12 / 0
Регистрация: 20.07.2011
Сообщений: 430
19.01.2021, 20:29  [ТС]
Цитата Сообщение от vic5710 Посмотреть сообщение
если это сетевая база, вам нужно запрос к ней составить, а не качать все подряд
киньте ссылку, поглядим
Data Set: https://www.kaggle.com/new-yor... ng-tickets
0
963 / 718 / 276
Регистрация: 10.12.2016
Сообщений: 1,764
19.01.2021, 20:30
ИМХО вам не столько питон нужен, сколько понимание работы с БД
0
10 / 12 / 0
Регистрация: 20.07.2011
Сообщений: 430
19.01.2021, 20:36  [ТС]
С майкрософт аксесс и опен офис базе я немного работала (совсем немного).
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
19.01.2021, 20:36
Помогаю со студенческими работами здесь

Доказать, что всякое множество, есть: 1.объединение всех своих подмножеств 2.объединение всех своих конечных подмножеств
Доказать, что всякое множество, есть: 1.объединение всех своих подмножеств 2.объединение всех своих конечных подмножеств ...

объединение
даны два целочисленных списка L1 и L2.Построить новый список L3, который бы объединил L1 и L2.

Объединение
В конгломерат входит n компаний. Для упрощения управления владельцы решили объединить все компании в одну. По закону разрешается объединять...

Объединение
Можно ли это как нибудь объединить или упростить? void __fastcall TForm4::RichEdit1MouseDown(TObject *Sender, TMouseButton Button,...

Объединение БД
Появилась такая проблема. Есть БД, которая используется на двух компьютерах без использования сервера. Возможно ли их объединение в...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
20
Ответ Создать тему
Новые блоги и статьи
BOINC: 22 года — и всё ещё работает
Programma_Boinc 12.03.2026
BOINC: 22 года — и всё ещё работает Дэвид Андерсон написал ретроспективу. Кратко: в 2001 году он ушёл из United Devices, где был CTO, и за несколько месяцев написал ядро BOINC — клиент, сервер,. . .
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога Финальные проекты на Си и на C++: hello-sdl3-c. zip hello-sdl3-cpp. zip Результат:
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru