Baidu Qianfan OCR 4B — убийца топовых OCR моделей?
Компания Baidu выпустила модель Qianfan OCR с 4 миллиардами параметров и заявляет, что она превосходит даже платные решения. Я решил проверить это на практике и провёл полноценный бенчмарк на реальных задачах: распознавание паспортов, водительских удостоверений, бюллетеней голосования, счетов-фактур, рукописного текста и математических формул. Курс "Применение ИИ для 1С" https://nizamov.school/courses/ai/chatgpt-1s В видео: - Обзор модели Baidu Qianfan OCR 4B с Hugging Face - Запуск локально на одной видеокарте RTX 3090 (16-22 ГБ VRAM) - Бенчмарк на 6 реальных задачах OCR - Сравнение с Qwen VL (4B, 72B, 235B), Gemini 3 Pro, GLM - Извлечение данных из таблиц и документов в JSON - Распознавание рукописного текста на русском языке - Результаты: где модель побеждает, а где проигрывает Результаты бенчмарка: - Распознавание форм и бюллетеней — на уровне топовых моделей - Паспорт и водительское удостоверение — отличные результаты - Извлечение табличных данных — Qwen VL справляется лучше - Рукописный русский текст — слабое место Qianfan OCR - Лучший результат по рукописному тексту — Gemini 3 Pro Проект OCR Arena (ссылка на GitHub): https://github.com/IlyaNizamov/OCR-Arena Таймкоды: 00:00 — Введение 00:48 — Обзор модели на Hugging Face 01:40 — Мой проект и бенчмарк 02:45 — Запуск приложения 05:26 — Демонстрация работы 07:22 — Результаты распознавания 08:02 — Подключение облачных моделей через OpenRouter 08:46 — Графики сравнения моделей 11:14 — Детальный разбор ошибок 14:04 — Рукописный текст: сравнение моделей 15:41 — Итоги и выводы Rutube: https://rutube.ru/channel/24132333/ Telegram: https://t.me/nizamov_studio_1c MAX: https://max.ru/id25506510495_biz Вконтакте: https://vk.com/nizamov.studio Сотрудничество и предложения: Mail: pr.nizamov@mail.ru Сот: +7 (917) 449-09-97 Qianfan OCR, Baidu OCR, OCR нейросеть, распознавание текста нейросетью, распознавание документов, Qwen VL, Gemini 3 Pro, локальный OCR, OCR на видеокарте, распознавание рукописного текста, извлечение данных из документов, OCR бенчмарк, OCR модель 2026, распознавание паспорта, computer vision, document intelligence #QianfanOCR #BaiduOCR #OCR #распознаваниетекста #нейросеть #QwenVL #Gemini3Pro #MachineLearning #DeepLearning #ComputerVision #DocumentAI #локальныйOCR #бенчмарк #распознаваниедокументов #ИИ #AI #OCRArena #распознаваниерукописноготекста #VisionLanguageModel #OpenSource
Компания Baidu выпустила модель Qianfan OCR с 4 миллиардами параметров и заявляет, что она превосходит даже платные решения. Я решил проверить это на практике и провёл полноценный бенчмарк на реальных задачах: распознавание паспортов, водительских удостоверений, бюллетеней голосования, счетов-фактур, рукописного текста и математических формул. Курс "Применение ИИ для 1С" https://nizamov.school/courses/ai/chatgpt-1s В видео: - Обзор модели Baidu Qianfan OCR 4B с Hugging Face - Запуск локально на одной видеокарте RTX 3090 (16-22 ГБ VRAM) - Бенчмарк на 6 реальных задачах OCR - Сравнение с Qwen VL (4B, 72B, 235B), Gemini 3 Pro, GLM - Извлечение данных из таблиц и документов в JSON - Распознавание рукописного текста на русском языке - Результаты: где модель побеждает, а где проигрывает Результаты бенчмарка: - Распознавание форм и бюллетеней — на уровне топовых моделей - Паспорт и водительское удостоверение — отличные результаты - Извлечение табличных данных — Qwen VL справляется лучше - Рукописный русский текст — слабое место Qianfan OCR - Лучший результат по рукописному тексту — Gemini 3 Pro Проект OCR Arena (ссылка на GitHub): https://github.com/IlyaNizamov/OCR-Arena Таймкоды: 00:00 — Введение 00:48 — Обзор модели на Hugging Face 01:40 — Мой проект и бенчмарк 02:45 — Запуск приложения 05:26 — Демонстрация работы 07:22 — Результаты распознавания 08:02 — Подключение облачных моделей через OpenRouter 08:46 — Графики сравнения моделей 11:14 — Детальный разбор ошибок 14:04 — Рукописный текст: сравнение моделей 15:41 — Итоги и выводы Rutube: https://rutube.ru/channel/24132333/ Telegram: https://t.me/nizamov_studio_1c MAX: https://max.ru/id25506510495_biz Вконтакте: https://vk.com/nizamov.studio Сотрудничество и предложения: Mail: pr.nizamov@mail.ru Сот: +7 (917) 449-09-97 Qianfan OCR, Baidu OCR, OCR нейросеть, распознавание текста нейросетью, распознавание документов, Qwen VL, Gemini 3 Pro, локальный OCR, OCR на видеокарте, распознавание рукописного текста, извлечение данных из документов, OCR бенчмарк, OCR модель 2026, распознавание паспорта, computer vision, document intelligence #QianfanOCR #BaiduOCR #OCR #распознаваниетекста #нейросеть #QwenVL #Gemini3Pro #MachineLearning #DeepLearning #ComputerVision #DocumentAI #локальныйOCR #бенчмарк #распознаваниедокументов #ИИ #AI #OCRArena #распознаваниерукописноготекста #VisionLanguageModel #OpenSource
