Видеоданные — один из самых сложных типов для аннотации. В отличие от изображений, здесь важна временна́я связность: объекты движутся, появляются и исчезают из кадра. Разбираем основные подходы.

Frame-by-frame разметка

Самый простой, но трудоёмкий метод — аннотировать каждый кадр отдельно. Применяется когда объекты сильно меняют форму или перекрываются друг другом. Преимущество: максимальная точность. Недостаток: высокая стоимость.

Трекинг с ключевыми кадрами

Разметчик аннотирует только ключевые кадры (keyframes), алгоритм автоматически интерполирует координаты между ними. Это снижает трудозатраты в 5–10 раз при сохранении приемлемой точности.

Полуавтоматическая разметка

Модели трекинга (SORT, ByteTrack, SAM 2) предсказывают bounding boxes, разметчик исправляет ошибки. При хорошем видео и несложных объектах доля ручной работы снижается до 20–30%.

Популярные инструменты