|
3 / 3 / 1
Регистрация: 01.04.2016
Сообщений: 120
|
|||||||||||
Как разобраться в LLama (llama_cpp)21.02.2025, 13:48. Показов 2059. Ответов 8
Доброго времени!
Нашёл два разных примера (llama_cpp) для ответа на вопросы через LLM2, первый работает с английским текстом (llama-2-7b.Q3_K_S.gguf - https://huggingface.co/TheBlok... olve/main/), второй с русским (model-q2_K.gguf - https://huggingface.co/IlyaGus... olve/main/). И вот в чём вопрос, 1-й пример отвечает сразу и за малое время может на несколько вопросов ответить, 2-й же отвечает посимвольно и даже один вопрос занимает много времени. Вопросы: 1) Почему первый пример так быстро работает на обычным ПК без GPU? 2) Как сделать чтобы вместо английского он также быстро и на русском отвечал? 3) Где взять нормальную языковую модель ещё кроме этой? 4) Может есть что-то получше чем llama_cpp? Но GUI и всё остальное вообще не нужно у меня не чат бот Код 1-го примера
1
|
|||||||||||
| 21.02.2025, 13:48 | |
|
Ответы с готовыми решениями:
8
как разобраться с циклом и таблицей как разобраться с задачей Массивы/списки, не могу разобраться как их создавать |
|
7 / 7 / 0
Регистрация: 05.04.2025
Сообщений: 32
|
|
| 29.09.2025, 12:09 | |
|
Может потому что у вас в первом случае максимальное кол-во токенов 32, а во втором 2000?
Сам плаваю в моделях на хуго и пока только IlyaGusev/saiga_yandexgpt_8b запустилась и даже дообучилась, но дообученная в память не влазит.
0
|
|
|
56 / 56 / 4
Регистрация: 10.06.2023
Сообщений: 801
|
|
| 29.12.2025, 14:13 | |
|
0
|
|
|
56 / 56 / 4
Регистрация: 10.06.2023
Сообщений: 801
|
|
| 30.12.2025, 09:17 | |
|
Первым шагом нашел, загрузил и распаковал llama.cpp
Затем долго искал модель По совету gigaChat: Chrom `llama_1b_ru.Q4_K_M.gguf download вышел в Hugging Face, повезло увидел строку с командой загрузки модели, работающей из директории llama.cpp: \llama.cpp>llama-cli --hf-repo hugging-quants/Llama-3.2-1B-Instruct-Q4_K_M-GGUF --hf-file llama-3.2-1b-instruct-q4_k_m.gguf -p , которая и установила англоязычную модель.
0
|
|
|
|
||||||||
| 30.12.2025, 12:24 | ||||||||
|
Должны быть https://huggingface.co/TheBlok... 3_K_S.gguf https://huggingface.co/IlyaGus... -q4_K.gguf Соответственно, страницы моделей: https://huggingface.co/TheBloke/Llama-2-7B-GGUF https://huggingface.co/IlyaGusev/saiga2_13b_gguf В частности, там есть инструкция от создателей модели, как её запускать. --hf-file избыточен, потому что --hf-repo позволяет скачать модель:
Для использования одной из вышеупомянутых надо после --hf-repo указать имя одной из тех моделей.
0
|
||||||||
|
56 / 56 / 4
Регистрация: 10.06.2023
Сообщений: 801
|
||
| 31.12.2025, 13:57 | ||
|
Теперь у меня 5 разных *.gguf но ни один из них не использует всю имеющуюся у меня оперативную память. Максимум на систему и llama 9 Gb тогда как у меня 24Гб. Хотя, существует противоречие больше памяти медленнее.
0
|
||
|
|
|||
| 31.12.2025, 18:42 | |||
|
Надо больше израсходовать памяти — можно увеличить размер контекста. Правда, на скорости генерации токенов это никак не отразится.
0
|
|||
|
56 / 56 / 4
Регистрация: 10.06.2023
Сообщений: 801
|
|
| 31.12.2025, 22:08 | |
|
Поставил LM Studio сравнил с llama.cpp похоже, но помедленнее на Qwen было не сравнено хуже, чем прямо Qwen. При прямом использовании узнает вас и видит все ваши предыдущие чаты. Их можно продолжить. Офлайн работа нужна только до сохранения деталей вашей работы в секрете от ИИ.
0
|
|
|
14126 / 9345 / 1350
Регистрация: 21.01.2016
Сообщений: 35,110
|
||
| 01.01.2026, 04:24 | ||
Это же просто очень красивая обёртка над llama.cpp, с ручками для разных ключей llama.cppю
0
|
||
| 01.01.2026, 04:24 | |
|
Помогаю со студенческими работами здесь
9
Как разобраться в переносе строк? Подскажите как разобраться с проблемой вывода
Как разобраться с открытием docx файлов, а так же их чтением Не могу разобраться как сделать переход между вкладками Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
http://iceja.net/ математические сервисы
iceja 20.01.2026
Обновила свой сайт http:/ / iceja. net/ , приделала Fast Fourier Transform экстраполяцию сигналов. Однако предсказывает далеко не каждый сигнал (см ограничения http:/ / iceja. net/ fourier/ docs ). Также. . .
|
http://iceja.net/ сервер решения полиномов
iceja 18.01.2026
Выкатила http:/ / iceja. net/ сервер решения полиномов (находит действительные корни полиномов методом Штурма).
На сайте документация по API, но скажу прямо VPS слабенький и 200 000 полиномов. . .
|
Расчёт переходных процессов в цепи постоянного тока
igorrr37 16.01.2026
/ *
Дана цепь постоянного тока с R, L, C, k(ключ), U, E, J. Программа составляет систему уравнений по 1 и 2 законам
Кирхгофа, решает её и находит переходные токи и напряжения на элементах схемы. . . .
|
Восстановить юзерскрипты Greasemonkey из бэкапа браузера
damix 15.01.2026
Если восстановить из бэкапа профиль Firefox после переустановки винды, то список юзерскриптов в Greasemonkey будет пустым.
Но восстановить их можно так.
Для этого понадобится консольная утилита. . .
|
|
Сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
|
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11
— это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
|
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11
Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
|
Почему дизайн решает?
Neotwalker 09.01.2026
В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .
|