Видеоданные — один из самых сложных типов для аннотации. В отличие от изображений, здесь важна временна́я связность: объекты движутся, появляются и исчезают из кадра. Разбираем основные подходы.
Frame-by-frame разметка
Самый простой, но трудоёмкий метод — аннотировать каждый кадр отдельно. Применяется когда объекты сильно меняют форму или перекрываются друг другом. Преимущество: максимальная точность. Недостаток: высокая стоимость.
Трекинг с ключевыми кадрами
Разметчик аннотирует только ключевые кадры (keyframes), алгоритм автоматически интерполирует координаты между ними. Это снижает трудозатраты в 5–10 раз при сохранении приемлемой точности.
Полуавтоматическая разметка
Модели трекинга (SORT, ByteTrack, SAM 2) предсказывают bounding boxes, разметчик исправляет ошибки. При хорошем видео и несложных объектах доля ручной работы снижается до 20–30%.
Популярные инструменты
- CVAT — открытый инструмент, поддерживает трекинг и интерполяцию
- Label Studio — гибкий, подходит для разных типов данных
- Supervisely — облачная платформа с продвинутыми CV-инструментами
- VGG Image Annotator (VIA) — простой и бесплатный для небольших задач