WHATSAPP:
Звонок
часы работы:
понедельник - воскресенье: 24/7
выбор языка:

Локальный ИИ на своём компьютере: гайд по Ollama для не-разработчиков


статья gdefoto

Локальный ИИ на своём компьютере: гайд по Ollama для не-разработчиков

В 2026 году большие языковые модели стали такой же обыденностью, как браузер. ChatGPT, Gemini, облачные ассистенты в Office и Google Docs - всё это удобно, но у облачного ИИ есть несколько фундаментал

О чём статья

В 2026 году большие языковые модели стали такой же обыденностью, как браузер. ChatGPT, Gemini, облачные ассистенты в Office и Google Docs - всё это удобно, но у облачного ИИ есть несколько фундаментальных проблем. Ваши запросы и документы уходят на чужие серверы. За пределами лимитов бесплатного тарифа платите ежемесячно. Без интернета ничего не работает. И главное: если вы загружаете в чат корпоративные документы, договоры под NDA или клиентские данные, вы технически нарушаете политику конфиденциальности почти любой компании.

Решение есть, и оно не такое сложное, как кажется. Современные открытые модели можно запустить прямо на ноутбуке, без знания Python и без аренды видеокарт в облаке. Инструмент, который сделал это доступным широкой публике, называется Ollama. В этом гайде разберём, как поставить его на любую операционную систему, какую модель выбрать под свою задачу, какой компьютер для этого нужен и где локальный ИИ реально полезен, а где облако пока выигрывает.

Что такое Ollama и почему именно он

Ollama - это бесплатная программа, которая берёт на себя всю техническую сложность запуска языковых моделей. Под капотом она работает с проектом llama.cpp, оптимизированным под обычные процессоры и потребительские видеокарты. Вам не нужно компилировать код, ставить драйверы CUDA вручную или возиться с виртуальными окружениями Python.

После установки Ollama работает как локальный сервис. Вы пишете в терминале одну команду - и через минуту у вас на компьютере крутится модель уровня GPT-3.5, отвечающая на вопросы без интернета. Через ту же программу к модели можно подключить графический чат, плагин в браузере или собственное приложение.

Альтернативы существуют: LM Studio с красивым интерфейсом из коробки, GPT4All, Jan, llamafile. Но Ollama стал стандартом по двум причинам. Во-первых, у него огромная библиотека готовых моделей, которые ставятся одной командой. Во-вторых, его API совместим с форматом OpenAI, поэтому почти любое стороннее приложение подключается к локальному Ollama так же, как к облачному ChatGPT.

Что нужно от компьютера

Главный ресурс для локального ИИ - это оперативная память. Модель целиком грузится в RAM (или в видеопамять GPU, если она есть), и от её размера зависит, какую модель вы вообще сможете запустить.

Ориентиры по железу:

  • 8 ГБ RAM: маленькие модели до 3 миллиардов параметров. Подходят для простых задач: переписать письмо, исправить грамматику, короткие ответы.
  • 16 ГБ RAM: модели 7-8 миллиардов параметров в квантованном виде. Это рабочий минимум, на котором уже можно делать осмысленные вещи: суммаризация документов, генерация черновиков, помощь с кодом.
  • 32 ГБ RAM: модели 13-14 миллиардов и квантованные версии до 30 миллиардов. Качество ответов заметно лучше.
  • 64 ГБ RAM и выше: тяжёлые модели до 70 миллиардов параметров. Это уже уровень флагманских открытых моделей.

С видеокартой всё проще: чем больше видеопамяти (VRAM), тем быстрее работает модель. Любая дискретная GeForce RTX или Radeon RX последних поколений даст ускорение в разы по сравнению с процессором. Apple Silicon (M1, M2, M3, M4) работает особенно хорошо, потому что у Mac общая память между CPU и GPU - модель 13B на MacBook с 32 ГБ запускается без проблем.

По диску закладывайте 30-50 ГБ свободного места под несколько моделей. Одна модель 7B весит примерно 4-5 ГБ, модель 70B - около 40 ГБ.

Установка на Windows, Mac, Linux

Для всех систем процесс занимает пару минут.

Windows

Скачайте установщик с официального сайта ollama.com и запустите его как обычную программу. После установки Ollama работает в фоне, иконка появляется в трее. Открываете PowerShell или обычный командный интерпретатор и пишете:

ollama --version

Если команда вывела номер версии, всё в порядке.

macOS

Можно скачать .dmg с сайта, можно поставить через Homebrew одной командой:

brew install ollama

После установки запустите сервис:

ollama serve

Эту команду удобно держать в отдельном окне терминала, либо настроить автозапуск через launchd.

Linux

Универсальный установочный скрипт:

curl -fsSL https://ollama.com/install.sh | sh

Скрипт сам определит дистрибутив, поставит бинарники в /usr/local/bin и зарегистрирует systemd-сервис. После установки сервис запускается автоматически. Проверка:

systemctl status ollama

Первый запуск

После установки нужно скачать какую-то модель. В терминале:

ollama pull llama3.2

Команда скачает модель в локальное хранилище (на Linux это /usr/share/ollama, на Mac и Windows в профиле пользователя). Это занимает от пары минут до получаса в зависимости от размера модели и скорости интернета.

Запуск чата:

ollama run llama3.2

Откроется простой текстовый интерфейс. Пишете вопрос, получаете ответ. Чтобы выйти, наберите /bye.

Несколько полезных команд:

ollama list

Покажет, какие модели у вас уже скачаны.

ollama rm llama3.2

Удалит модель с диска.

ollama ps

Покажет, какие модели сейчас загружены в память.

Графический интерфейс

Текстовый терминал нагляден, но для повседневной работы хочется нормального чата с историей, копированием кода, переключением моделей. Есть три популярных варианта.

Open WebUI

Самый функциональный интерфейс. Выглядит как ChatGPT, поддерживает несколько пользователей, историю переписки, загрузку файлов в чат, голосовой ввод. Ставится через Docker одной командой:

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

После запуска открываете в браузере localhost:3000 и регистрируете локальный аккаунт.

Page Assist

Расширение для Chrome и Firefox. Превращает любую страницу в контекст для ИИ: можно спросить про текущую веб-страницу, выделенный текст или PDF в браузере. Ставится из магазина расширений, в настройках указываете адрес локального Ollama (по умолчанию http://localhost:11434).

LM Studio

Альтернатива самому Ollama, не дополнение. Это самостоятельная программа с графическим интерфейсом, в которой и установка моделей, и чат, и сервер делаются мышкой. Если вы вообще не хотите видеть терминал, LM Studio проще. Но у него меньше моделей в библиотеке и нет такого широкого комьюнити вокруг.

Как убрать круги под глазами на фото. Изображение 1

Какую модель выбрать

Зоопарк открытых моделей в 2026 году большой. Перечислю основные семейства, которые точно стоит попробовать.

Llama от Meta. Базовая универсальная модель, отлично подходит для общих задач: чат, тексты, краткое описание документов. Считается стандартом, с которым сравнивают остальные. Большое сообщество, много дообученных версий.

Qwen от Alibaba. Очень сильна в коде и логике, отлично знает русский язык (китайские разработчики обучают модели на широком наборе языков). Часто оказывается лучшим выбором для кодинга среди открытых.

Mistral. Французская модель, известна экономичностью: при сопоставимом размере выдаёт качество выше среднего. Хороша для текстов на европейских языках.

Gemma от Google. Лёгкая модель, специально оптимизированная под запуск на потребительском железе. Если у вас слабый компьютер, Gemma в маленьких размерах часто работает лучше, чем урезанные версии больших моделей.

DeepSeek. Известна сильными способностями в математике и рассуждениях. Есть отдельные версии под программирование. По бенчмаркам конкурирует с проприетарными моделями.

Универсальный совет: начните с Llama в размере, подходящем под ваше железо. Когда поймёте, что нужно (больше русского, больше кода, меньше памяти), переключайтесь на специализированную модель.

Размеры моделей и квантизация

В названии модели часто стоит цифра вроде 3B, 7B, 13B, 70B - это количество параметров в миллиардах. Чем больше параметров, тем умнее модель, но тем больше она требует памяти.

Вторая важная характеристика - квантизация. Это сжатие весов модели с потерей точности. Обычные обозначения: q8, q5, q4, q3, q2.

  • q8 - почти оригинальное качество, но требует много памяти.
  • q4 - стандартный компромисс, который ставится по умолчанию во многих моделях Ollama. Качество падает незначительно, размер уменьшается в 4 раза по сравнению с полной точностью.
  • q3 и q2 - агрессивное сжатие, заметная потеря качества, но позволяет запустить модель 70B на машине, где обычно влезает только 30B.

Практический подход: ставьте q4 по умолчанию. Если ответы кажутся туповатыми и есть запас памяти, попробуйте q5 или q8 той же модели. Если модель не лезет в RAM, переходите на q3.

Кейсы использования

Где локальный ИИ реально помогает в работе:

  • Переписка и черновики писем. Переформулировать, сократить, перевести, исправить тон. Идеально для рабочей почты, которую неудобно тащить в облачный чат.
  • Работа с документами. Через Open WebUI или похожие интерфейсы можно загрузить PDF, договор, аналитическую записку и задавать по ним вопросы. Документ не уходит никуда за пределы вашего компьютера.
  • Помощь с кодом. Объяснить чужой код, написать функцию по описанию, найти ошибку. Не заменяет специализированных ассистентов вроде GitHub Copilot, но для частных проектов и скриптов хватает.
  • Чат с локальными файлами. Связка Ollama + расширения типа Page Assist или специализированных RAG-решений позволяет индексировать локальную папку и потом задавать вопросы по её содержимому.
  • Контент для бизнеса. Описания товаров, посты для соцсетей, ответы на типовые обращения клиентов. Когда обработать нужно сотни единиц, локальная модель экономит и время, и деньги на API.

Чего локальный ИИ не умеет

Честный список ограничений:

  • Свежие знания. Модель знает то, на чём её обучали. Без подключения к интернету она не расскажет про вчерашнюю новость и не сходит на сайт.
  • Размер контекста. Облачные модели держат в памяти десятки и сотни тысяч токенов. Локальные обычно ограничены меньшим окном, плюс на больших контекстах резко падает скорость.
  • Качество на сложных задачах. Флагманы вроде GPT, Gemini, Claude всё ещё лучше открытых моделей на длинных рассуждениях, сложной математике и многошаговых задачах. Разрыв сокращается, но он есть.
  • Мультимодальность. Работа с картинками, аудио, видео в открытых моделях возможна, но настройка сложнее и качество хуже.
  • Скорость. На обычном ноутбуке без хорошей видеокарты ответ генерируется заметно медленнее, чем в облаке. Для интерактивного чата это терпимо, для пакетной обработки тысяч записей - уже нет.

Разумный подход: использовать локальный ИИ для всего, что касается приватных данных и рутинных задач, а к облаку обращаться, когда нужны максимальное качество, картинки или работа с сайтами.

Безопасность и privacy

Главная причина запускать ИИ локально - данные не покидают ваш компьютер. Это критично в нескольких сценариях:

  • Юристы и консультанты, работающие с документами под NDA.
  • Бухгалтерия и финансовые отделы, где в любом запросе фигурируют цифры компании.
  • HR с резюме и личными делами сотрудников.
  • Разработчики, которые не имеют права отправлять исходный код на внешние сервисы.
  • Медицинская сфера, где приватность данных пациентов защищена законом.

При работе с Ollama стоит проверить пару вещей. По умолчанию сервис слушает только localhost, то есть к нему не подключиться извне. Если вы намеренно открываете порт 11434 наружу для удалённого доступа, обязательно поставьте перед ним обратный прокси с авторизацией. Логи диалогов локально не пишутся, но история в Open WebUI сохраняется в его базе - если этого не нужно, отключите в настройках.

Отдельно: модели сами по себе не звонят никуда домой. Скачиваются они один раз с серверов Ollama (или с Hugging Face через соответствующие команды), дальше работают полностью офлайн. Можно физически отключить интернет и убедиться, что всё функционирует.

Хотите освоить ИИ системно?

На курсе ИИ для работы и жизни мы разбираем не только локальные LLM (отдельный урок 9), но и облачные модели, промпт-инженерию, AI-агенты, ИИ для бизнеса и многое другое.

Первый урок бесплатно: /ai-kurs/urok-1-vvedenie/

Программа курса: /ai-kurs/

Войти в ЛК