Тесты бесплатных моделей в задачах выделения идей из текста
Двадцать семь бесплатных моделей. Четыре теста на выживание. И только две прошли полностью. Остальные либо упирались в rate limit, либо висели по две минуты на запросе, либо возвращали JSON, который ломал парсер на первом же символе. Я не стал гадать, какая нейросеть «лучше» для извлечения идей из книг и документов. Вместо этого встроил бенчмарк прямо в расширение «Идеограф». Подключил API-агрегатор, прогнал модели через smoke test, проверку инструкций, валидацию JSON и реальную задачу: вытаскивание определений, теорем, методов и аналогий из текста по линейной алгебре с жёсткой схемой вывода. Цифры не врут: бесплатный сегмент оказался зоной нестабильности. А модели из самого нижнего платного тарифа (Gemma 3 27B, Gemini 2.0 Flash) отработали без сбоев, уложились в секунды и обошлись в доли копейки за запросы. Разница — не в «интеллекте», а в предсказуемости, инфраструктуре и соблюдении контрактов. «Идеограф» уже работает с большими документами, структурирует академические тексты и отображает идеи с любого языка на русский без потери смысла. Встроенный тестер позволяет подключить распространенный провайдер моделей или добавить другой API, проверить и модели на своих данных до того, как она попадёт в рабочий пайплайн. Здесь метрики, конкретные примеры ответов и разбор того, почему бесплатные LLM часто проигрывают дешёвым платным в условиях строгого форматирования и парсинга. Если вам ближе подход «сначала тесты, потом выводы» — разбираем всё по пунктам. Ссылка на расширение: https://github.com/NikasAl/ideograph
Двадцать семь бесплатных моделей. Четыре теста на выживание. И только две прошли полностью. Остальные либо упирались в rate limit, либо висели по две минуты на запросе, либо возвращали JSON, который ломал парсер на первом же символе. Я не стал гадать, какая нейросеть «лучше» для извлечения идей из книг и документов. Вместо этого встроил бенчмарк прямо в расширение «Идеограф». Подключил API-агрегатор, прогнал модели через smoke test, проверку инструкций, валидацию JSON и реальную задачу: вытаскивание определений, теорем, методов и аналогий из текста по линейной алгебре с жёсткой схемой вывода. Цифры не врут: бесплатный сегмент оказался зоной нестабильности. А модели из самого нижнего платного тарифа (Gemma 3 27B, Gemini 2.0 Flash) отработали без сбоев, уложились в секунды и обошлись в доли копейки за запросы. Разница — не в «интеллекте», а в предсказуемости, инфраструктуре и соблюдении контрактов. «Идеограф» уже работает с большими документами, структурирует академические тексты и отображает идеи с любого языка на русский без потери смысла. Встроенный тестер позволяет подключить распространенный провайдер моделей или добавить другой API, проверить и модели на своих данных до того, как она попадёт в рабочий пайплайн. Здесь метрики, конкретные примеры ответов и разбор того, почему бесплатные LLM часто проигрывают дешёвым платным в условиях строгого форматирования и парсинга. Если вам ближе подход «сначала тесты, потом выводы» — разбираем всё по пунктам. Ссылка на расширение: https://github.com/NikasAl/ideograph
