|
0 / 0 / 0
Регистрация: 22.08.2019
Сообщений: 9
|
|
Создать модель для подбора курсов на coursera по ключевому слову09.04.2021, 12:12. Показов 1417. Ответов 15
Здравстуйте.
Пишу диплом по машинному обучению. Думаю сделать модель, которая бы выдавала список подходящих курсов на Coursera по ключевому слову. Например по запросу "базы данных" подобрать список курсов связанных с изучением языков БД. Результат выводить на фронтентде. Не могли бы вы подсказать, каким образом можно это реализовать? Заранее спасибо.
0
|
|
| 09.04.2021, 12:12 | |
|
Ответы с готовыми решениями:
15
Надо создать функцию для разделения строки по ключевому слову
Плагинация для товаров по ключевому слову |
|
578 / 411 / 69
Регистрация: 09.01.2018
Сообщений: 1,363
|
|
| 09.04.2021, 13:42 | |
|
А причем тут машинное обучение? У каждого курса есть набор "ключевых слов". Вы задаете свой набор. Потом просто смотрите, какие курсу своими наборами "пересекаются" с вашим. Где и чему тут надо что-то "обучать"?
1
|
|
|
0 / 0 / 0
Регистрация: 22.08.2019
Сообщений: 9
|
|
| 09.04.2021, 14:38 [ТС] | |
|
passant, Спасибо за ответ.
Так себе представлял задачу, вследствие недостаточных знаний. Эта область новая для меня. Не подскажете какими инструментами\библиотеками воспользоваться? Спасибо.
0
|
|
|
578 / 411 / 69
Регистрация: 09.01.2018
Сообщений: 1,363
|
|
| 09.04.2021, 14:44 | |
|
Так какие инструменты? База данных, обычные SQL-запрос.
Вот только что делать с "дипломом по машинному обучению"- ума не приложу. Одно из двух - или не по машинному обучению, или другая задача. Кстати, вовсе не уверен, что ваша задача по сложности потянет на диплом, даже на бакалаврский. Уж больно проста. Ну разве что на курсовой.
1
|
|
|
0 / 0 / 0
Регистрация: 22.08.2019
Сообщений: 9
|
|
| 09.04.2021, 14:51 [ТС] | |
|
passant, вот как... Если не по ML может взять датасет сердечных заболеваний http://kaggle.com/ronitf/heart-disease-uci и построить прогноз. Как вы считаете?
0
|
|
|
578 / 411 / 69
Регистрация: 09.01.2018
Сообщений: 1,363
|
|
| 09.04.2021, 15:01 | |
|
А сумеете? А разберетесь? Потянете? А то, что вы беретесь за ML, слабо понимая, что оно такое, зачем и как с ним работать - мои сомнения только усиливает. (Кстати, эта самая задача самое что ни есть МL).
Да и откуда мне знать, может вы в мелиоративное-художественном универе учитесь, так какие там Heart Disease. Вообще-то такие вопросы надо бы с руководителем решать, а не на форуме.
1
|
|
|
0 / 0 / 0
Регистрация: 22.08.2019
Сообщений: 9
|
|
| 09.04.2021, 15:26 [ТС] | |
|
passant. Да, я стараюсь обойтись малой кровью.
Я возможно неправильно описал свою идею в первом вопросе. идея была создать агрегатор курсов, которая бы на основе семантического анализа описания курса + длительности + итд делала сравнение курсов и отбрасывала бы неподходящие, не по теме. Сейчас по запросу coursera выдает смесь курсов, которые не всегда совпадают с запросом. Новизна утыкается в агрегатор. Было такое предложение. Как думаете? Спасибо за ваши ответы.
0
|
|
|
578 / 411 / 69
Регистрация: 09.01.2018
Сообщений: 1,363
|
|
| 09.04.2021, 16:01 | |
|
Думаю, что идея не очень хорошая.
Когда-то у меня был полный внутренний список все курсов Coursera. Не помню точно, сколько их там было - ну пару сотен, наверное. ( Кстати, задача была очень близкая - найти курсы, которые можно рекомендовать как дополнительные к университетским). О каждом курсе была какая-то теговая информация. Во-первых вряд-ли вы на основе "семантического анализа" (кстати, а что вы собрались анализировать? Запись лекций? И извлекать описание курса из человеческой речи?) сделаете что-то более подходящее для описания. Более того, на основании "..... итд" надо сначала вашу модель научить. Для этого сделать разметку. Вы сможете это сделать вручную? Ну там, прослушать курсы, вытянуть семантической описание, потом точно определить, к какому классу этот курс относиться? А иначе как вы собираетесь модель-то строить? Не знаю, по какому запросу сейчас "выдается смесь курсов", но как-то очень сомневаюсь, что вам в рамках дипломной работы удастся смастерить нечто, что может конкурировать с тем-же Google, который, кстати, поиск делает вовсе не по тегам, а вполне себе по анализу семантики. И описания курса (правда - в виде текста) и запроса. Хотите ему составить конкуренцию? Ну, а учитывая - простите - ваше понимание проблематики и инструментария машинного обучения, уровень моего отношения к идее надо еще более понизить на два-три порядка.
1
|
|
|
0 / 0 / 0
Регистрация: 22.08.2019
Сообщений: 9
|
|
| 09.04.2021, 16:08 [ТС] | |
|
По описанию курса сравнивать курсы и выбирать наиболее подходящий по введенному запросу
0
|
|
|
578 / 411 / 69
Регистрация: 09.01.2018
Сообщений: 1,363
|
||
| 09.04.2021, 17:34 | ||
|
Впрочем - можете попробовать, потом расскажите, что получилось. Готовтесь осваивать не только МL, но и NLP. Обещаю, будет интересно и весело. Особенно ближе к защите.
0
|
||
|
2623 / 1634 / 266
Регистрация: 19.02.2010
Сообщений: 4,345
|
||
| 09.04.2021, 18:50 | ||
|
Вернее, из NLP для англ языка понадобится только нормализация слов в единственное число (из множественного числа). Да и ML будет обычным ближайшим соседом. Fidan1, Вот как надо делать: Со всех скачанных описаний формируется словарный корпус нормализованных слов, из этого словаря выкидываются все "ненужные" слова (союзы, предлоги,...). Остаётся общий словарик на несколько тысяч слов. Далее каждый текст (описание) превращается в вектор, длиной равный числу слов словаря. Элементы вектора - частоты соответствующего слова в тексте (так называемый частотный словарь). Вектор окажется сильно разреженным (малое число элементов в нём будет отлично от нуля). Набор векторов затем используется при классификации ближайшим соседом (вот и весь нужный тут ML - никакого обучения, просто лишь вычисление расстояний между векторами). Запрос для этого перекодируется в числовой вектор тем же самым образом (на основе того же сАмого словаря, т.е. если в запросе будут какие-то новые, ранее невстречавшиеся слова, то ой, эти слова выкинутся из запроса). Если надо в ответе на запрос возвращать не один курс - то ищется >1 самых ближайших описаний. При желании - можно попробовать не только частоты слов TF, но и нормализованные частоты https://ru.wikipedia.org/wiki/TF-IDF . Т.е. каждый числовой вектор может не только кодировать отдельный текст - но и корректироваться на "среднюю по больнице" ситуацию. С прошлого века так, например, новостевые тексты рубрицировали по темам (не ближайшим соседом, а автоматической классификацией=кластеризацией, но через представление текстов в виде частотных словарей). В пакете Statistica один из примеров - корпус из нескольких тысяч текстов новостей Рейтера, и рядом приложен "словарик" "ненужных" английских слов. Но даже на бакалаврский диплом такое, ИМХО, тянет лишь с большой натяжкой.
1
|
||
|
0 / 0 / 0
Регистрация: 22.08.2019
Сообщений: 9
|
|
| 09.04.2021, 19:08 [ТС] | |
|
VTsaregorodtsev, спасибо ответ.
Не подскажете какими инструментами воспользоваться и куда копать ?
0
|
|
|
2623 / 1634 / 266
Регистрация: 19.02.2010
Сообщений: 4,345
|
|
| 09.04.2021, 19:18 | |
|
Fidan1, не подскажу (я на питоне не пишу, поэтому ХЗ в какие там пакеты/библиотеки надо лезть для того, чтобы не рукоблудить код вручную с нуля - а юзать что-то готовое высокоуровневое).
1
|
|
|
0 / 0 / 0
Регистрация: 22.08.2019
Сообщений: 9
|
|
| 09.04.2021, 19:28 [ТС] | |
|
VTsaregorodtsev, а на чём вы бы реализовали?
0
|
|
|
578 / 411 / 69
Регистрация: 09.01.2018
Сообщений: 1,363
|
||
| 09.04.2021, 20:37 | ||
Про NLP это была легкая форма сарказма, если что.
0
|
||
|
2623 / 1634 / 266
Регистрация: 19.02.2010
Сообщений: 4,345
|
||
| 09.04.2021, 21:56 | ||
|
А в питоньем разделе форума у меня посты в основном по вопросам алгоритмов (т.е. независимые от ЯП вещи) - т.е. советы по способам решения задач.
0
|
||
| 09.04.2021, 21:56 | |
|
Помогаю со студенческими работами здесь
16
Поиск по ключевому слову Поиск по ключевому слову Поиск по ключевому слову Поиск по ключевому слову Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
|
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11
— это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
|
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11
Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
|
Почему дизайн решает?
Neotwalker 09.01.2026
В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .
|
|
Модель микоризы: классовый агентный подход 3
anaschu 06.01.2026
aa0a7f55b50dd51c5ec569d2d10c54f6/
O1rJuneU_ls
https:/ / vkvideo. ru/ video-115721503_456239114
|
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ФедосеевПавел 06.01.2026
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ВВЕДЕНИЕ
Введу сокращения:
аналоговый ПИД — ПИД регулятор с управляющим выходом в виде числа в диапазоне от 0% до. . .
|
Модель микоризы: классовый агентный подход 2
anaschu 06.01.2026
репозиторий https:/ / github. com/ shumilovas/ fungi
ветка по-частям.
коммит Create переделка под биомассу. txt
вход sc, но sm считается внутри мицелия. кстати, обьем тоже должен там считаться. . . .
|
Расчёт токов в цепи постоянного тока
igorrr37 05.01.2026
/ *
Дана цепь постоянного тока с сопротивлениями и источниками (напряжения, ЭДС и тока). Найти токи и напряжения во
всех элементах. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа и. . .
|