Новый полностью с открытым исходным кодером OpenVision приходит для улучшения клипа Openai, Google Siglip

Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в лидирующем отраслевом освещении искусственного интеллекта. Узнать больше

Калифорнийский университет, Санта-Крус, объявил о выпуске OpenVision, семейства энкодеров Vision, которая направлена на то, чтобы предоставить новую альтернативу моделям, включая четырехлетний клип Openai и прошлогодний Siglip от Google.

Экодер видения-это тип модели ИИ, которая преобразует визуальный материал и файлы-обычно все еще изображения, загруженные создателями модели-в численные данные, которые могут быть поняты другими, не визуальными моделями ИИ, такими как модели крупных языков (LLMS). Экодер видения является необходимым компонентом для того, чтобы многие ведущие LLM могли работать с изображениями, загруженными пользователями, что позволяет LLM идентифицировать различные предметы изображения, цвета, местоположения и больше функций в изображении.

Тогда OpenVision, с его разрешающей лицензией Apache 2.0 и семейством из 26 (!) Различных моделей, охватывающих от 5,9 млн. Параметров до 632,1 млн. Параметров, позволяет любому разработчику или производителю модели ИИ на предприятии или организации принимать и развернуть энкодер, который можно использовать для употребления всех изображений на строительном сайте до модели, позволяя модели в другой или подключаемой модели, и в пользу. Лицензия Apache 2.0 позволяет использовать в коммерческих приложениях.

Модели были разработаны командой во главе с Cihang Xie, доцентом UCSC, а также участниками Сяньхан Ли, Яньцин Лю, Хаоцин Ту и Хонгру Чжу.

Проект основан на тренировочном трубопроводе Clips и использует набор данных Recap-Datacomp-1B, повторной версии веб-корпуса в миллиардном масштабе с использованием языковых моделей, способствующих Llava.

Масштабируемая архитектура для различных вариантов использования развертывания предприятия

Конструкция OpenVision поддерживает множественные варианты использования.

Большие модели хорошо подходят для серверных рабочих нагрузок, которые требуют высокой точности и подробного визуального понимания, в то время как меньшие варианты-такие легкие параметры 5,9 м-оптимизированы для развертывания краев, где вычислительные и память ограничены.

Модели также поддерживают адаптивные размеры патчей (8 × 8 и 16 × 16), что позволяет настраивать компромиссы между разрешением детализации и вычислительной нагрузкой.

Сильные результаты по мультимодальным показателям

В серии критериев OpenVision демонстрирует сильные результаты по нескольким задачам на языке зрения.

В то время как традиционные критерии клипов, такие как ImageNet и Mscoco, остаются частью набора оценки, команда OpenVision предостерегает против полагаться исключительно на эти метрики.

Их эксперименты показывают, что сильная производительность в классификации или поиске изображений не обязательно приводит к успеху в сложных мультимодальных рассуждениях. Вместо этого команда выступает за более широкое контрольное покрытие и открытые протоколы оценки, которые лучше отражают реальные мультимодальные варианты использования.

Оценки проводились с использованием двух стандартных мультимодальных структур-Llava-1.5 и Open-Llava-Next-и показали, что модели OpenVision последовательно соответствуют или превосходят как Clip, так и Siglip по таким задачам, как TextVQA, Chartqa, MME и OCR.

В рамках установки Llava-1.5 кодеры OpenVision, обученные разрешению 224 × 224, набрали более высокие, чем клип Openai как в задачах классификации, так и в поисках, а также в нижестоящих оценках, таких как Seed, SQA и Pope.

При более высоких входных разрешениях (336 × 336) OpenVision-L/14 превзошел клип-L/14 в большинстве категорий. Даже меньшие модели, такие как OpenVision-Small и Tiny, поддерживали конкурентную точность, используя значительно меньше параметров.

Эффективное прогрессивное обучение снижает расчеты

Одной из заметной особенности OpenVision является ее стратегия обучения прогрессивным разрешениям, адаптированная из Clipa. Модели начинают тренироваться по изображениям с низким разрешением и постепенно настраиваются на более высокие разрешения.

Это приводит к более эффективному учебному процессу-часто в 2-3 раза быстрее, чем клип и сиглип-без потерь в результатах производительности.

Исследования абляции-там, где компоненты модели машинного обучения выборочно удаляются, чтобы определить их важность или отсутствие ее функционирования-дополнительно подтверждают преимущества этого подхода, при этом наибольшее повышение производительности наблюдается в задачах, чувствительных к деталям, таким как OCR, и ответа на визуальные вопросы на основе диаграмм.

Другим фактором в производительности OpenVision является использование синтетических подписей и вспомогательный текстовый декодер во время обучения.

Эти варианты дизайна позволяют энкодеру зрения изучать более семантически богатые представления, повышая точность в мультимодальных задачах. Удаление любого компонента привело к последовательному падению производительности в тестах на абляцию.

Оптимизирован для легких систем и вариантов использования краевых вычислений

OpenVision также предназначен для эффективной работы с небольшими языковыми моделями.

В одном эксперименте кодер видения был в сочетании с 150-метровой SMOL-LM для создания полной мультимодальной модели под параметрами 250 м.

Несмотря на крошечный размер, система сохранила надежную точность в наборе VQA, понимание документов и рассуждения.

Эта возможность предполагает большой потенциал для развертываний на основе краев или ресурсов, таких как смартфоны потребителей или камеры производства и датчики на месте.

Почему OpenVision имеет значение для лиц, принимающих предприятие технических решений

Полностью открытый и модульный подход OpenVision к развитию кодера зрения имеет стратегические последствия для предприятий, работающих в области искусственного интеллекта, оркестровки, инфраструктуры данных и безопасности.

Для инженеров, контролирующих разработку и развертывание LLM, OpenVision предлагает решение для интеграции высокопроизводительных возможностей для интеграции высокоэффективных возможностей зрения без в зависимости от непрозрачных сторонних API или ограниченных лицензий на модель.

Эта открытость обеспечивает более жесткую оптимизацию конвейерных трубопроводов на зрение и гарантирует, что запатентованные данные никогда не покидают окружающую среду организации.

Для инженеров, сосредоточенных на создании структурных структур, OpenVision предоставляет модели в широком диапазоне шкал параметров-от ультракомпактных энкодеров, подходящих для краевых устройств, для более крупных моделей с высоким разрешением, подходящими для многоязных облачных трубопроводов.

Эта гибкость облегчает проектирование масштабируемых, экономичных рабочих процессов MLOPS без ущерба для точности с конкретной задачей. Его поддержка обучения прогрессивным разрешению также позволяет более разумно распределить ресурсы во время разработки, что особенно полезно для команд, работающих в рамках ограниченных бюджетных ограничений.

Инженеры по данным могут использовать OpenVision для Power Power Image Analytics Tipelines, где структурированные данные дополняются визуальными входами (например, документы, диаграммы, изображения продуктов). Поскольку модельный зоопарк поддерживает множество входных разрешений и размеров патчей, команды могут экспериментировать с компромиссами между верностью и производительностью без переподготовки с нуля. Интеграция с такими инструментами, как Pytorch и обнимающееся лицо, упрощает развертывание модели в существующие системы данных.

Между тем, прозрачная архитектура и воспроизводимый тренировочный трубопровод Openvision позволяют командам безопасности оценивать и контролировать модели на предмет потенциальных уязвимостей-в отличие от API-интерфейсов черного ящика, где внутреннее поведение недоступно.

При развертывании локации эти модели избегают рисков утечки данных во время вывода, что имеет решающее значение для регулируемых отраслей, обрабатывающих конфиденциальные визуальные данные, такие как идентификаторы, медицинские формы или финансовые записи.

Во всех этих ролях OpenVision помогает сократить блокировку поставщиков и привносит преимущества современного мультимодального ИИ в рабочие процессы, которые требуют контроля, настройки и эксплуатационной прозрачности. Это дает предприятиям команды технической основы для создания конкурентных, усиленных AI-приложений-на своих собственных условиях.

Открыт для бизнеса

Зоопарк OpenVision Model доступен как в реализациях Pytorch, так и в JAX, и команда также выпустила утилиты для интеграции с популярными структурами на языке зрения.

Начиная с этого выпуска модели могут быть загружены из обнимающего лица, а рецепты обучения публично размещены для полной воспроизводимости.

Предоставляя прозрачную, эффективную и масштабируемую альтернативу проприетарным энкодерам, OpenVision предлагает исследователям и разработчикам гибкую основу для продвижения применения на языке зрения. Его выпуск знаменует собой значительный шаг вперед в стремлении к открытой мультимодальной инфраструктуре, особенно для тех, кто стремится создавать экспозиционные системы без доступа к закрытым данным или обучающим трубопроводам.

Для получения полной документации, тестов и загрузки посетите страницу проекта OpenVision или репозиторий GitHub.

Источник