С Новым годом! Форум программистов, компьютерный форум, киберфорум
Python: Научные вычисления
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 5.00/7: Рейтинг темы: голосов - 7, средняя оценка - 5.00
0 / 0 / 0
Регистрация: 22.08.2019
Сообщений: 9

Создать модель для подбора курсов на coursera по ключевому слову

09.04.2021, 12:12. Показов 1417. Ответов 15

Студворк — интернет-сервис помощи студентам
Здравстуйте.

Пишу диплом по машинному обучению. Думаю сделать модель, которая бы выдавала список подходящих курсов на Coursera по ключевому слову.
Например по запросу "базы данных" подобрать список курсов связанных с изучением языков БД.
Результат выводить на фронтентде.

Не могли бы вы подсказать, каким образом можно это реализовать?

Заранее спасибо.
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
09.04.2021, 12:12
Ответы с готовыми решениями:

Надо создать функцию для разделения строки по ключевому слову
У нас есть строка s1, которую мы вводим с клавиатуры, требуется разделить её на две строки по ключевому слову " finish ", в...

Создать массив строк разделяя строку по ключевому слову
Здравствуйте, требуется создать массив строк разделяя существующею строку по ключевому слову. Пример: Дана строка "Neque porro...

Плагинация для товаров по ключевому слову
Здравствуйте! На странице вывожу товары по поиску строки $search_str = $_GET; $loop = new WP_Query( array('s' => $search_str, ...

15
578 / 411 / 69
Регистрация: 09.01.2018
Сообщений: 1,363
09.04.2021, 13:42
А причем тут машинное обучение? У каждого курса есть набор "ключевых слов". Вы задаете свой набор. Потом просто смотрите, какие курсу своими наборами "пересекаются" с вашим. Где и чему тут надо что-то "обучать"?
1
0 / 0 / 0
Регистрация: 22.08.2019
Сообщений: 9
09.04.2021, 14:38  [ТС]
passant, Спасибо за ответ.
Так себе представлял задачу, вследствие недостаточных знаний. Эта область новая для меня.
Не подскажете какими инструментами\библиотеками воспользоваться?
Спасибо.
0
578 / 411 / 69
Регистрация: 09.01.2018
Сообщений: 1,363
09.04.2021, 14:44
Так какие инструменты? База данных, обычные SQL-запрос.
Вот только что делать с "дипломом по машинному обучению"- ума не приложу. Одно из двух - или не по машинному обучению, или другая задача.
Кстати, вовсе не уверен, что ваша задача по сложности потянет на диплом, даже на бакалаврский. Уж больно проста. Ну разве что на курсовой.
1
0 / 0 / 0
Регистрация: 22.08.2019
Сообщений: 9
09.04.2021, 14:51  [ТС]
passant, вот как... Если не по ML может взять датасет сердечных заболеваний http://kaggle.com/ronitf/heart-disease-uci и построить прогноз. Как вы считаете?
0
578 / 411 / 69
Регистрация: 09.01.2018
Сообщений: 1,363
09.04.2021, 15:01
А сумеете? А разберетесь? Потянете? А то, что вы беретесь за ML, слабо понимая, что оно такое, зачем и как с ним работать - мои сомнения только усиливает. (Кстати, эта самая задача самое что ни есть МL).
Да и откуда мне знать, может вы в мелиоративное-художественном универе учитесь, так какие там Heart Disease.
Вообще-то такие вопросы надо бы с руководителем решать, а не на форуме.
1
0 / 0 / 0
Регистрация: 22.08.2019
Сообщений: 9
09.04.2021, 15:26  [ТС]
passant. Да, я стараюсь обойтись малой кровью.
Я возможно неправильно описал свою идею в первом вопросе.
идея была создать агрегатор курсов, которая бы на основе семантического анализа описания курса + длительности + итд делала сравнение курсов и отбрасывала бы неподходящие, не по теме.
Сейчас по запросу coursera выдает смесь курсов, которые не всегда совпадают с запросом.
Новизна утыкается в агрегатор.
Было такое предложение.
Как думаете?

Спасибо за ваши ответы.
0
578 / 411 / 69
Регистрация: 09.01.2018
Сообщений: 1,363
09.04.2021, 16:01
Думаю, что идея не очень хорошая.
Когда-то у меня был полный внутренний список все курсов Coursera. Не помню точно, сколько их там было - ну пару сотен, наверное. ( Кстати, задача была очень близкая - найти курсы, которые можно рекомендовать как дополнительные к университетским). О каждом курсе была какая-то теговая информация.
Во-первых вряд-ли вы на основе "семантического анализа" (кстати, а что вы собрались анализировать? Запись лекций? И извлекать описание курса из человеческой речи?) сделаете что-то более подходящее для описания.
Более того, на основании "..... итд" надо сначала вашу модель научить. Для этого сделать разметку. Вы сможете это сделать вручную? Ну там, прослушать курсы, вытянуть семантической описание, потом точно определить, к какому классу этот курс относиться? А иначе как вы собираетесь модель-то строить?
Не знаю, по какому запросу сейчас "выдается смесь курсов", но как-то очень сомневаюсь, что вам в рамках дипломной работы удастся смастерить нечто, что может конкурировать с тем-же Google, который, кстати, поиск делает вовсе не по тегам, а вполне себе по анализу семантики. И описания курса (правда - в виде текста) и запроса. Хотите ему составить конкуренцию?
Ну, а учитывая - простите - ваше понимание проблематики и инструментария машинного обучения, уровень моего отношения к идее надо еще более понизить на два-три порядка.
1
0 / 0 / 0
Регистрация: 22.08.2019
Сообщений: 9
09.04.2021, 16:08  [ТС]
По описанию курса сравнивать курсы и выбирать наиболее подходящий по введенному запросу
0
578 / 411 / 69
Регистрация: 09.01.2018
Сообщений: 1,363
09.04.2021, 17:34
Цитата Сообщение от Fidan1 Посмотреть сообщение
По описанию курса сравнивать курсы и выбирать наиболее подходящий по введенному запросу
По свободному текстовому описанию? Ну, а что делает Гуугл? Только Гуугл умеет вытягитвать семантику из любого текста, и интеллектуально сравнивать его с любым запросом. Но правда в штате у него не один бакалавр-дипломник, он может себе это позволить.
Впрочем - можете попробовать, потом расскажите, что получилось. Готовтесь осваивать не только МL, но и NLP. Обещаю, будет интересно и весело. Особенно ближе к защите.
0
2623 / 1634 / 266
Регистрация: 19.02.2010
Сообщений: 4,345
09.04.2021, 18:50
Цитата Сообщение от passant Посмотреть сообщение
Готовтесь осваивать не только МL, но и NLP.
Нафиг не нужен тут не только МL, но и NLP.
Вернее, из NLP для англ языка понадобится только нормализация слов в единственное число (из множественного числа). Да и ML будет обычным ближайшим соседом.

Fidan1, Вот как надо делать:
Со всех скачанных описаний формируется словарный корпус нормализованных слов, из этого словаря выкидываются все "ненужные" слова (союзы, предлоги,...). Остаётся общий словарик на несколько тысяч слов.
Далее каждый текст (описание) превращается в вектор, длиной равный числу слов словаря. Элементы вектора - частоты соответствующего слова в тексте (так называемый частотный словарь). Вектор окажется сильно разреженным (малое число элементов в нём будет отлично от нуля).
Набор векторов затем используется при классификации ближайшим соседом (вот и весь нужный тут ML - никакого обучения, просто лишь вычисление расстояний между векторами). Запрос для этого перекодируется в числовой вектор тем же самым образом (на основе того же сАмого словаря, т.е. если в запросе будут какие-то новые, ранее невстречавшиеся слова, то ой, эти слова выкинутся из запроса).
Если надо в ответе на запрос возвращать не один курс - то ищется >1 самых ближайших описаний.

При желании - можно попробовать не только частоты слов TF, но и нормализованные частоты https://ru.wikipedia.org/wiki/TF-IDF . Т.е. каждый числовой вектор может не только кодировать отдельный текст - но и корректироваться на "среднюю по больнице" ситуацию.

С прошлого века так, например, новостевые тексты рубрицировали по темам (не ближайшим соседом, а автоматической классификацией=кластеризацией, но через представление текстов в виде частотных словарей). В пакете Statistica один из примеров - корпус из нескольких тысяч текстов новостей Рейтера, и рядом приложен "словарик" "ненужных" английских слов.

Но даже на бакалаврский диплом такое, ИМХО, тянет лишь с большой натяжкой.
1
0 / 0 / 0
Регистрация: 22.08.2019
Сообщений: 9
09.04.2021, 19:08  [ТС]
VTsaregorodtsev, спасибо ответ.
Не подскажете какими инструментами воспользоваться и куда копать ?
0
2623 / 1634 / 266
Регистрация: 19.02.2010
Сообщений: 4,345
09.04.2021, 19:18
Fidan1, не подскажу (я на питоне не пишу, поэтому ХЗ в какие там пакеты/библиотеки надо лезть для того, чтобы не рукоблудить код вручную с нуля - а юзать что-то готовое высокоуровневое).
1
0 / 0 / 0
Регистрация: 22.08.2019
Сообщений: 9
09.04.2021, 19:28  [ТС]
VTsaregorodtsev, а на чём вы бы реализовали?
0
578 / 411 / 69
Регистрация: 09.01.2018
Сообщений: 1,363
09.04.2021, 20:37
Цитата Сообщение от VTsaregorodtsev
Нафиг не нужен тут не только МL, но и NLP.
Я это пытаюсь ТС с первого моего ответа разъяснить. Ну может хоть вас послушает.
Про NLP это была легкая форма сарказма, если что.
0
2623 / 1634 / 266
Регистрация: 19.02.2010
Сообщений: 4,345
09.04.2021, 21:56
Цитата Сообщение от Fidan1 Посмотреть сообщение
а на чём вы бы реализовали?
На плюсах (с++). Просто лишь потому, что это у меня основной язык программирования.
А в питоньем разделе форума у меня посты в основном по вопросам алгоритмов (т.е. независимые от ЯП вещи) - т.е. советы по способам решения задач.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
09.04.2021, 21:56
Помогаю со студенческими работами здесь

Кодирование по ключевому слову
Здравствуйте. Нужно закодировать введенную строку, потом по этому ключу закодировать и раскодировать слово. К примеру, ввели ключевое...

Поиск по ключевому слову
Есть строка string a="/kl1/textovka/kl2/" Надо из этой строки вырезать текст, который находится между двумя ключевыми словами /kl1/ и...

Поиск по ключевому слову
Я сделал поиск по автору, подскажите что изменить, чтобы можно было искать по ключевому слову или даже пару букв ввёл, а программа выводила...

Поиск по ключевому слову
Помогите пожалуйста, нужно чтобы искал сколько плохих слов на сайте(в данном примере слово "дурак") и выводило количество сколько...

Поиск по ключевому слову
Задача: оформить поиск по ключевым словам "Hello" и то что в правых ячейках от этих слов добавить к общей сумме.


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
16
Ответ Создать тему
Новые блоги и статьи
сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
Почему дизайн решает?
Neotwalker 09.01.2026
В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .
Модель микоризы: классовый агентный подход 3
anaschu 06.01.2026
aa0a7f55b50dd51c5ec569d2d10c54f6/ O1rJuneU_ls https:/ / vkvideo. ru/ video-115721503_456239114
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ФедосеевПавел 06.01.2026
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR ВВЕДЕНИЕ Введу сокращения: аналоговый ПИД — ПИД регулятор с управляющим выходом в виде числа в диапазоне от 0% до. . .
Модель микоризы: классовый агентный подход 2
anaschu 06.01.2026
репозиторий https:/ / github. com/ shumilovas/ fungi ветка по-частям. коммит Create переделка под биомассу. txt вход sc, но sm считается внутри мицелия. кстати, обьем тоже должен там считаться. . . .
Расчёт токов в цепи постоянного тока
igorrr37 05.01.2026
/ * Дана цепь постоянного тока с сопротивлениями и источниками (напряжения, ЭДС и тока). Найти токи и напряжения во всех элементах. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа и. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru