Генерация и архивирование потоковых цифровых данных — взгляд в будущее

Ноя 102022

2022-11-10 Posted by Анатолий Лушников on 2022-11-10 at 19:30

Вольтер когда-то подметил, что «книга на злобу дня (назовем ее родовым понятием — `рассуждения`) умирает вместе со злободневностью».

Однако, обратимся к логике: не будь рассуждений на злобу дня, и злободневность, быть может, существовала б вечно.

Генерация и архивирование потоковых цифровых данных — взгляд в будущее

Лавинообразное разрастание архивов потоковых цифровых данных — мировая тенденция. В России, в частности, с подачи депутатов Яровой и Озерова , накапливание и хранение цифровых данных в системах интернет-коммуникаций , в том числе и потоковых цифровых данных, возведено в букву Закона — как обязательность для ряда компаний.

Как следствие от обозначенной мировой тенденции, возрастает актуальность задачи анализа содержимого потоковых цифровых данных — либо в режиме реального масштаба времени — «на лету», либо в режиме апостериорной обработки — спустя некоторое время, по факту события возникновения потребности в анализе контента. Особенно актуальна эта задача в прикладных сферах безопасности.

Цифровой контент разбухающих архивов мультимедиа не может быть проанализирован в разумные с практической точки зрения сроки традиционными, классическими методами — когда в качестве анализатора используется человек (низкая пропускная способность человека, как звена обработки массива данных).

Однако, предполагаю: человечество разработает средства ИИ (искусственного интеллекта) для анализа потоковых цифровых данных. И как следствие, традиционный подход к организации систем, генерирующих, передающих и архивирующих потоковый контент, в первую очередь в системах видеорегистрации, изменится.

Нотка пессимизма. ИИ — стало модной аббревиатурой, но реалии этого ИИ на практике — весьма куцые. Чуть ранее модным словечком было слово «НАНО». Мне нравится прогуливаться по улицам столицы: даже в деловых поездках, когда располагаю временем, предпочитаю пешую прогулку иным способам добраться на транспорте. Иду как-то по Москве, смотрю: огромными буквами под крышей пристройки к зданию, где обозначились контуры автомобильной мойки, висит баннер «НАНОМОЙКА» 🙂 . Сейчас, когда Президент озвучил новый аврал «Все в ИИ!», следует ожидать в рекламе этой мойки фразу: «Мойтесь у нас: наша вода заряжена ИИ — Ваша машина станет умнее!» 🙂 .

Я побывал осенью 2019г на выставке, посвященной в том числе и задачам обработки и хранения потоковых цифровых данных (весьма непрезентабельной с точки зрения привлечения зарубежных игроков) — экспоненты не смогли меня удивить ничем.

Вернемся к теме статьи. Трудности алгоритмов, ориентированных на обработку потокового контента, так или иначе связаны с решением трудной математической задачей, именуемой «распознавание образов». Именно при решении подобных задач определяется IQ ИИ как алгоритма.

Но подобные алгоритмы, во-первых, потребляют много вычислительных ресурсов обрамляющих систем, во вторых, не универсальны — для разных классов задач обработки потоковой информации могут быть использованы разные алгоритмы.

Однако, у разных алгоритмов обработки данных может быть нечто общее, и это общее связано со спецификой обработки. Как правило, алгоритмы ИИ в задачах распознавания образов предусматривают два этапа:

1) Первичное преобразование — например: разложить кадр видеоряда в ряд Фурье, отобрать для анализа значимые сочетания гармоник ряда Фурье, остальные гармоники, малоинформативные, отбросить. Назовем поток данных после первичной обработки потоковой информации — МЕТАИНФОРМАЦИЕЙ. Её объем может быть значительно меньше объёма потоковой информации в целом. Термин МЕТАИНФОРМАЦИЯ здесь может ввести в заблуждение читателя, так как в терминологии описаний существующих систем генерации и хранения потоковой информации он имеет более узкий смысл.

2) Вторичная обработка — на основании потока МЕТАИНФОРМАЦИИ оценивать вероятность тех или иных событий (например, вероятность наличия человека в кадре потоковой информации)…

Инженерная исследовательская мысль не стоит на месте: возможно, исследователям удастся найти оптимальные в некотором смысле алгоритмы первичного преобразования потоковых данных — алгоритмы генерации МЕТАИНФОРМАЦИИ. Оптимальные в смысле их применимости к широкому классу задач вторичной обработки — распознавания образов.

Если это случится, то системы генерации, передачи, обработки и хранения потоковой информации будущего, наверное, будут адаптированы к этим двум этапам обработки потоков данных:

— в режиме реального времени, «НАЛЕТУ», будут производить ПЕРВИЧНУЮ ОБРАБОТКУ — получение ОПТИМАЛЬНОГО ПОТОКА МЕТАДАНЫХ (оптимального в смысле применимости к широкому спектру задач распознавания образов), именно в момент генерации потока данных, именно в устройствах генерации и передачи потока данных;
— апостериорно (по факту оказии возникновения потребности) или в режиме реального времени производить вторичную обработку, непосредственно распознавание образов, с применением алгоритмов, ориентированных на решение конкретной задачи из широкого спектра задач, для которых МЕТАДАННЫЕ адаптированы.

А системы архивации потоковых данных будут обеспечивать возможность записи:

— и ОСНОВНОГО ПОТОКА ДАННЫХ,

— и производного от него — потока МЕТАДАННЫХ,

в один и тот же архив.

Поиск оптимального набора МЕТАДАННЫХ, пригодного для широкого класса задач алгоритмики апостериорной обработки изображений и обработки в реальном масштабе времени — при таком подходе — главная задача. Решение ее может способствовать достижению финансовой оптимальности в условиях тотального (широкомасштабного) внедрения систем обработки потоковых данных, в первую очередь — в классе задач обеспечения безопасности среды обитания человека.

Полагаю, результаты поиска оптимального алгоритма формирования потока МЕТАДАННЫХ целесообразно узаконить СТАНДАРТОМ — связующей силой для множества производителей.