Как будет проходить тестирование?
Думаю, метаться в вариантах тестирования здесь нет смысла — всё равно их немного. Но кое‑что интересное придумать удалось: три фотографии, расположенные в порядке возрастания сложности заданий. И чтобы уж совсем весело стало, главным испытанием выступит фотография рукописного рецепта от врача (да‑да, там порой текст больше напоминает зачарование из Minecraft, чем русский язык).
Первое фото
Второе фото
Опять же, может показаться, что здесь всё просто, но есть своя загвоздка. Сколько пользовался нейросетями — столько натыкался на одну проблему с подобным форматом текста на фотографии. Искусственный интеллект частенько не обращает на него внимания и переписывает всё построчно.
Третье фото
Босс нашего тестирования. На самом деле, даже человеку сложно понять, что здесь написано, поэтому интересно, как с этим справится нейросеть.
Небольшое отступление
На простых нейросетях смысла останавливаться не вижу, поэтому решил поискать сервисы, специализирующиеся на распознавании текста с изображений. Это тоже, понятно, относится к рассматриваемой теме — перейдём сразу к ним. Думаю, двух штук вполне хватит.
DeepSeek V3
Часто пользуюсь этой моделью, поэтому не мог обойти её стороной в этой статье. Просто загружаете фото и пишете само задание.
В принципе, я не думаю, что какая‑то из рассматриваемых нейросетей не справится с первым заданием. Однако они любят удивлять, поэтому не вижу проблемы в его рассмотрении.
Что касается самого ответа — здесь претензий нет: текст переписан полностью, задание выполнено. Балл заработан.
DeepSeek справился с поставленной задачей, проверил ответ несколько раз, найти какую‑либо ошибку не удалось. Зачитаю плюс в карму модели и перейдём дальше.
Claude Sonnet 4
Следующим на тестирование отправляется Claude. Действия аналогичны DeepSeek: загружаю фото, задаю запрос — получаю ответ. Удобненько.
Не вижу особого смысла долго задерживаться на этом задании, поскольку здесь нет ничего особенно сложного.
Честно признаюсь, надеялся, что каждая из рассматриваемых нейросетей решит второе задание столь же успешно, как первое. Но действительность разочаровала.
Claude плохо выполнил задание, кое‑где искажая оригинальный текст («дружочек», например, превращается в «дядюшку»). Довольно странно, ведь перед нейросетью стоит конкретная задача, предъявлена четко различимая фотография. Я скорее ждал, что она вообще проигнорирует структуру текста и начнет тупо копировать строку за строкой, но вышло иначе.
Несмотря на полный провал предыдущего задания и вопреки моим ожиданиям, Claude всё‑таки показал лучшие результаты, чем DeepSeek, в случае с рецептом. Правда, итоговый балл тоже близок к нулю. Хотя нейросеть действительно написала название реального лекарства, визуально её вывод совершенно не соответствует изображению. Более того, большая часть вывода Claude представляет собой неразборчивые каракули, а та малость полезной информации, которую удалось извлечь из ответа, практически ни на чём не основана.
Gemini 2.5
Ещё одна нейросеть — примерно на уровне DeepSeek и Claude. Может ли Gemini справиться сразу со всеми тремя заданиями? Проверим эту теорию.
Первое задание выполнено успешно, без каких‑либо замечаний. Трудно представить, чтобы какая‑нибудь другая нейросеть с ним не справилась.
Второе задание тоже выполнено. Здесь Gemini обошла Claude, начавшего спотыкаться ещё раньше. Интересно, удастся ли этой нейросети расшифровать рецепт врача?
Результат уже лучше, чем у двух предыдущих моделей. Практически всё прописано верно, хотя лекарства указаны другие, не такие, какие были в рецепте. К тому же очевидно, что изначально они записаны не на английском.
Несмотря ни на что, назначение препаратов отражено абсолютно точно (во всяком случае, я ошибок не заметил). Большая часть информации представлена корректно, в отличие от предыдущих попыток переписывания рецепта.
«Яндекс Картинки»
Самый простой способ извлечь текст с картинки из всех возможных — открываем браузер, переходим в раздел изображений и через камеру загружаем туда фотографию. Это необязательно делать файлом, можно просто вставить картинку, что значительно облегчает жизнь пользователям.
После загрузки в поиске появляется окно с распознанным текстом. «Яндекс» также позволяет получить ответ на этот вопрос с помощью голосового помощника «Алиса», однако попытка оказалась неудачной: система сообщила, что такой возможности у неё нет.
Второе задание выполнено безупречно — никаких претензий. Правда, я предполагал, что сервис проигнорирует форматы строк и будет выводить всё подряд сплошной массой.
Третье задание снова провалено. Качество распознавания примерно соответствует результату DeepSeek, но уступает модели Claude. Печально, и тут нам не смогли расшифровать врачебный почерк.
Image To Text
Изначально я планировал уйти в Google после рассмотрения «Яндекса», однако аналогичной функции там не обнаружил. Следующим сервисом стал Image To Text. Достаточно просто зайти на сайт и загрузить изображение — файлом либо вставкой.
Результат есть, хотя понятно, что никакой нейросети здесь нет, способной помимо текста выдать ещё и осмысленный ответ. Табуляция тоже хромает, но ведь наша задача — конкретное извлечение текста с картинки, значит, задание в каком‑то роде выполнено.
Да, текст извлечен, но результат один из самых плохих в данном тесте. Слова скачут со строки на строку, иногда появляются ненужные абзацы.
Частые вопросы о распознавании текста нейросетями
Вопрос: Какая нейросеть лучше всего распознает текст с фотографий?
Ответ: Результаты зависят от типа текста и качества изображения. В тестах часто лидируют модели вроде Gemini 2.5 или Claude Sonnet, но для конкретных задач стоит провести собственное сравнение.
Вопрос: Нужно ли программирование, чтобы научить нейросеть распознавать текст?
Ответ: Не всегда. Многие современные сервисы (как «Яндекс Картинки» или Image To Text) предлагают готовые инструменты без необходимости писать код.
Вопрос: Можно ли обучить модель на своем наборе данных?
Ответ: Да, некоторые платформы и фреймворки (например, на основе архитектур, подобных DeepSeek) позволяют дообучать модели на специфических изображениях для повышения точности.
Вопрос: С какими типами текста нейросети справляются хуже всего?
Ответ: Чаще всего проблемы возникают с рукописным текстом, декоративными шрифтами, текстом на сложном фоне, а также при низком разрешении или плохом освещении.
Вопрос: Что такое OCR и как он связан с нейросетями?
Ответ: OCR (Optical Character Recognition) — это технология распознавания текста. Современные OCR-системы активно используют нейронные сети для достижения высокой точности, особенно в сложных случаях.
Вопрос: Как подготовить изображения для лучшего распознавания?
Ответ: Следует обеспечить хорошее разрешение, ровное освещение, прямой угол съемки, контрастный текст на однородном фоне и минимальные искажения.
Вопрос: Обрабатывают ли нейросети текст на нескольких языках одновременно?
Ответ: Многие продвинутые модели (такие как Gemini или Claude) являются мультиязычными и могут распознавать и смешивать разные языки в одном документе.
Вопрос: В чем разница между онлайн-сервисом и локальной моделью для распознавания?
Ответ: Онлайн-сервисы удобны и мощны, но требуют интернета и могут иметь ограничения. Локальные модели работают оффлайн и обеспечивают конфиденциальность, но могут требовать больше вычислительных ресурсов.
Вопрос: Можно ли распознать текст из видео с помощью нейросетей?
Ответ: Да, для этого обычно извлекаются кадры из видео, которые затем обрабатываются как статические изображения нейросетевыми OCR-моделями.
Вопрос: Какие метрики используются для оценки качества распознавания текста?
Ответ: Чаще всего используются точность (accuracy) на уровне символов (Character Accuracy) и на уровне слов (Word Accuracy), а также скорость обработки.
Краткий чек-лист по работе с нейросетями для распознавания текста
- Четко определите задачу: что за текст нужно распознавать (печатный, рукописный, скриншоты).
- Подготовьте качественные изображения: хорошее освещение, контраст, минимум искажений.
- Изучите и сравните доступные инструменты: онлайн-сервисы (Image To Text, «Яндекс Картинки») и AI-модели (Gemini, Claude, DeepSeek).
- Проведите тестовый прогон на небольшой выборке изображений.
- Проанализируйте ошибки распознавания: на каких символах или шрифтах модель «спотыкается».
- При необходимости рассмотрите возможность дообучения модели на своих данных.
- Оцените требования к инфраструктуре: онлайн-доступ, локальная установка, вычислительная мощность.
- Проверьте поддержку нужных языков и специальных символов.
- Убедитесь в удобстве вывода результата (текстовый файл, интеграция с другими программами).
- Протестируйте скорость обработки и соответствие вашим требованиям по времени.
- Обратите внимание на стоимость использования (если сервис платный) или затраты на свои ресурсы.
- Рассмотрите вопросы конфиденциальности данных, особенно при работе с чувствительной информацией.
- Составьте инструкцию или пайплайн для повторяющегося использования процесса.
- Запланируйте периодическую перепроверку точности, особенно если данные меняются.




























