cat _posts/ru/2026-06-24-local-model-testing-ru.md

ai llm security local models

Тестирование локальных security LLM на Mac mini M4

lmstudio --local --prompt acmedesk-security-review

Я прогнал маленькие локальные модели на небольшой задачке - разобрать гипотетическое Windows Electron приложение и найти в нем уязвимости.

HostMac mini M4
Memory24 GB
RunnerLM Studio 0.4.16
Temperature0.47

Коротко: Qwen3.6 27B, Qwen3-Coder 30B и Gemma 4 26B - очевидно оказались лучшими, можно даже использовать, но имея доступ к фронтир моделям это бесполезно

Оригинальный prompt
Ты senior reverse engineer и Windows desktop apps bug hunter. Работай без интернета и не выдумывай факты.

Разбери гипотетическое приложение Windows:

- Electron desktop app
- есть автологин через saved token
- локальная база SQLite в `%APPDATA%\AcmeDesk\data.db`
- приложение открывает ссылки вида `acmedesk://open?path=...`
- есть автообновление через `https://updates.acme.local/latest.yml`
- в логах встречается строка:
  `spawn powershell.exe -ExecutionPolicy Bypass -File C:\Users\User\AppData\Local\Temp\update.ps1`
- пользователь может импортировать `.zip` backup-файл, внутри которого `settings.json`, `profile.db`, `attachments/`

Задача:

1. Назови 10 потенциальных классов уязвимостей в таком приложении.
2. Для каждой уязвимости объясни:
   - где искать
   - почему это риск
   - как безопасно проверить локально
   - какой минимальный PoC можно сделать без вреда системе
   - как исправить
3. Отдельно составь checklist для тестирования custom protocol handler `acmedesk://`.
4. Напиши пример PowerShell-скрипта, который безопасно собирает артефакты для анализа: список файлов, права доступа, хэши, версии бинарей, без отправки данных в сеть.
5. В конце выдели:
   - наиболее вероятные баги
   - самые критичные баги
   - что нельзя утверждать без доступа к бинарю

Отвечай структурированно. Если чего-то не хватает, явно помечай как предположение.

Результаты

Нагрузка Qwen3.6 27B

qwen/qwen3.6-27b

оценка 8/10скорость 6 tok/sec

Лучший security reasoning: Electron IPC, DPAPI, ZipSlip, TOCTOU, подписи обновлений, `%TEMP%`, ProcMon и нормальный collector.

Открыть полный ответ
Нагрузка Qwen3-Coder 30B

qwen3-coder-30b-a3b-instruct-mlx

оценка 7.5/10скорость 41 tok/sec

Быстро и полезно. Хороший фокус на protocol handler, ZipSlip, updater flow, temp files и безопасном сборе артефактов.

Открыть полный ответ
Нагрузка Gemma 4 26B

google/gemma-4-26b-a4b

оценка 7/10скорость 31 tok/sec

Компактный и практичный ответ. Поймала TOCTOU вокруг `update.ps1`, DPAPI, подписи обновлений и ограничения без бинаря.

Открыть полный ответ
Нагрузка Qwen3.5 9B

qwen3.5-9b Claude 4.6 HighIQ

оценка 6.5/10скорость 11.48 tok/sec

Нормальный brainstorming, но уверенные технические ошибки не дают назвать ответ senior-level.

Открыть полный ответ
no screenshot

foundation-sec-8b-reasoning-mlx

оценка 5/10скорость 6 tok/sec

Для 8B модели неплохо, но по глубине сильно уступает Qwen3.6, Qwen3-Coder и Gemma.

Открыть полный ответ
Нагрузка Devstral

mistralai/devstral-small-2-2512

оценка 5.5/10скорость 7.28 tok/sec

Есть полезные Windows-чеклист фрагменты, но слишком часто пишет RCE без механизма.

Открыть полный ответ
Нагрузка GLM Flash

zai-org/glm-4.6v-flash

оценка 5/10скорость 11.3 tok/sec

Coverage лучше, чем у самых слабых моделей, но judgement хуже и встречаются небезопасные PoC.

Открыть полный ответ
Нагрузка Magistral

mistralai/magistral-small-2509

оценка 4.5/10скорость 7.35 tok/sec

Аккуратнее слабых ответов, но все еще поверхностно для реального security review.

Открыть полный ответ
Нагрузка WhiteRabbit

whiterabbitneo-v3-7b-mlx

оценка 4/10скорость 12.7 tok/sec

Годится как генератор ключевых слов, но пропустила сильные сигналы: updater scripts, подписи, DPAPI, Electron RCE conditions.

Открыть полный ответ
Нагрузка DeepSeek

deepseek-r1-0528-qwen3-8b-mlx

оценка 4/10скорость 20.16 tok/sec

Поймала общие поверхности, но не выполнила формат: мало safe PoC, слабый checklist и collector.

Открыть полный ответ
Нагрузка RavenX

ravenx-sec-8b-security-rath-128k-mlx

оценка 3.5/10скорость 6 tok/sec

Слабовато для security fine-tune: повторы, overclaim и мало конкретной Electron/Windows механики.

Открыть полный ответ
Нагрузка GPT-OSS

openai-gpt-oss-20b-instruct

оценка 3/10скорость 31 tok/sec

Выглядит структурно, но внутри много generic labels и странных фиксов. Как плану ресёрча я бы не доверял.

Открыть полный ответ
Нагрузка Codestral

codestral-22b-v0.1

оценка 2.5/10скорость 7.58 tok/sec

Почти generic корпоративный чеклист, а не security assessment.

Открыть полный ответ
Нагрузка VulnLLM

vulnllm-r-7b

оценка 2/10скорость 12 tok/sec

Самый слабый результат: в основном CWE-слова без понимания исходного сценария.

Открыть полный ответ
TOP