Технологія MPEG-4, Детальна інформація
Технологія MPEG-4
Реферат на тему:
Технологія MPEG-4
Кінематографія по праву вважається одним із найвидатніших відкриттів людства в області мультимедіа-технологій. Перші відкриття в цій області належать Вільяму Діксону (1889 рік). Він досяг відтворення коротких "відеороликов" шляхом зміни статичних зображень із звуком, що навряд чи можна було назвати синхронізованим. Начальник Діксона, Томас Едісон, не оцінив цей винахід через низьку, на його думку, якість звука і зображення та швидкого зносу устаткування. Повноцінного розвитку кінематографія набула лише через 40 років.
Але навіть у наші дні, в епоху революції в області мультимедіа- і Internet-технологій, і незважаючи на свою масовість і глобальність, кінематографія має надзвичайну подібність із невдалим проектом Діксона. Інші популярні засоби комунікації (мобільний зв'язок і т.п.) також не могли повною мірою вирішити проблему ефективної передачі графічної інформації. Сьогодні, завдяки MPEG-4 (так був названий новий стандарт, що викликав революцію у сфері мультимедіа), проект багаторічної давнини був, нарешті, реалізований.
Новий стандарт розроблявся протягом п'яти років групою фахівців Moving Picture Experts Group (MPEG) на базі Міжнародної Організації по стандартизації (ISO) у Женеві. Дослідження проводилися на базі самого сучасного цифрового устаткування. Відеозображення і звук, записані по новій технології порівнянні по якості з їхніми копіями, згенерованими комп'ютером. Новий формат запису звукової інформації дозволяє досягти якості відтворення рівня компакт-дисків поряд із прийнятною швидкістю передачі даних, а, при необхідності, досягти оптимального балансу якості і швидкості відтворення.
З появою MPEG-4 програми відтворення графічних і звукових даних перестали бути "пасивними". Високий рівень "інтерактивності" сучасних аудіовізуальних систем дозволяє користувачу без зайвих зусиль зупинити або ж запустити відтворення відео. Можливості MPEG-4 дуже різноманітні: вони дозволяють користувачу маніпулювати об'єктами, отриманими як із так називаних природних джерел, таких як реальне відео, так і із синтетичних джерел (систем комп'ютерного проектування або комп'ютерної мультиплікації). Користувач може редагувати окремі кадри шляхом видалення або додавання окремих об'єктів, переміщення об'єктів і навіть управляти їхньою поведінкою (наприклад, кліком мишкою на об'єкті можна змусити його обертатися).
Мабуть, основна вимога до механізму MPEG - забезпечення його надійності. Для цього були розроблені уніфіковані (і, одночасно, забезпечуючі високу якість) аудіо- і відео кодери та декодери, доступні в Internet і призначені для запобігання конфліктів при використанні інших форматів. Таким чином, користувачу доводиться вибирати з безлічі форматів відео: QuickTime корпорації Apple Corp., AVI корпорації Microsoft або, наприклад, RealVideo компанії RealNetworks Inc., і ще більшої кількості аудіоформатів.
Крім того, для оптимізації роботи через Internet стандарт дозволяє працювати навіть при низькій швидкості передачі даних та на безпроводних пристроях. Таким чином, у залежності від якості з'єднання і трафіку забезпечується різна швидкість доступу до інформації. Для цього MPEG-4 підтримує можливість одноразового кодування з наступним відтворенням із різною якістю і на різній швидкості передача даних, у залежності від термінального устаткування.
З іншого боку, цю перевагу можна розглядати як погляд у майбутнє, коли телебачення поряд із звичайним віщанням дозволить приймати інформацію від інтерактивних цифрових джерел. Тому MPEG-4 уже передбачає засоби повної інтеграції радіомовної інформації з високоякісними інтерактивними об'єктами MPEG. У перспективі розглядається забезпечення доступу до радіомовної інформації через глобальну мережу. Однак, тут виникає ще одна проблема - неуніфікованість формату Web-ресурсів.
У останні роки дуже популярним стало отримання з Internet цифрових копій аудіоінформації, що дуже негативно відбилося на музичній індустрії. Після появи MPEG-4 і в результаті постійного зниження цін на цифрові пристрої та ж доля почала осягати і відео. У зв'язку з цим для розробників MPEG виникла чергова задача - забезпечення захисту інтелектуальної власності.
Часу на відпочинок немає!
Чи не прийшов ще час для нового стандарту аудіо- і відеоінформації? Відповідь на це питання дає сама історія форматів MPEG. Дебютувавши у 1992 році формат MPEG-1, дотепер широко використовується в країнах Далекого сходу. Це був повноцінний цифровий відеопрогравач що відтворював аудіо- і відеоінформацію в лінійних потоках, забезпечуючи принцип доступу подібний звичайному відеомагнітофону. (Так зване аудіо і видео на рухомій магнітній стрічці. Для його відтворення не потрібно повне попереднє завантаження усього вмісту магнітного носія, програвання робиться паралельно зі зчитуванням і декодуванням.)
У 1995 році був розроблений MPEG-2, поданий як формат для стиску і передачі цифрових телевізійних сигналів (для запису DVD-дисків також використовується кодування MPEG-2.) Однак, незважаючи на те, що нова технологія могла використовуватися як для керування потоками із серверу так і для одержання радіомовної інформації, вона, як і попередня, була лінійною, тобто її інтерактивність обмежувалася стандартними операціями: прискореним або уповільненим відтворенням.
Незабаром з'явився MPEG-4 із його багатофункціональністю і міццю, в основу якого лягла об'єктно-орієнтована модель.
Переваги об'єктної моделі
Якщо провести аналогію з хімією, на атомарному рівні аудіо- і відеокомпоненти MPEG-4 подані як об'єкти. Ці об'єкти можуть існувати незалежно один від одного, можуть групуватися, формуючи аудіовізуальні конструкції вищого рівня. Таке угруповання називається композицією, результатом якого є сцена (кадр). Перевага такого так називаного об'єктно-орієнтованого підходу в можливості маніпулювання будь-яким аудіо- або відеооб'єктом.
Візуальні об'єкти сцени визначаються їхніми координатами в дво- або тривимірному просторі. За аналогією, аудіооб'єкти містяться в звуковому просторі. При розміщенні в просторі об'єкти визначаються тільки один раз. Всі подальші операції й обчислення про зміні стану об'єктів виконуються локально, тобто на терміналі користувача. Це дуже істотно, особливо в тих випадках, коли потрібно одержати високу швидкість обробки при обмеженій швидкості передачі даних.
Мова, що описує стан об'єктів MPEG-4 і їхні динамічні зміни, називається BIFS (Binary Format for Scenes). За допомогою команд цієї мови можна не тільки добавляти або видаляти об'єкти зі сцени, а і змінювати їх візуальні і звукові характеристики незалежно одна від обної.
Команди BIFS можна використовувати для створення анімації шляхом визначення поведінки об'єкта в залежності від дій користувача, оброблених декодером. За допомогою цієї мови можна створювати навіть інтерактивні прикладні програми або, наприклад, використовувати вміст вікна програми (приміром, Web-браузера) у якості текстури сцени.
Багато концепцій BIFS запозичені з Мови Моделювання Віртуальної Реальності (Virtual Reality Modeling Language - VRML), що широко використовується для опису тривимірних об'єктів і керування ними в Internet-програмах. У принципі BIFS і VRML можна розглядати як різні формулювання одної концепції. У мові VRML всі об'єкти й операції над ними, як і в будь-якій мові високого рівня, подані в текстовому виді. У BIFS використовується двійкове представлення, що дозволяє зменшити програмний код приблизно в 10-15 разів.
Основна відмінність BIFS, використовуваного в MPEG-4, від VRML - обробка в реальному часі. Це означає, що для відтворення сцени не потрібно її повне завантаження, оскільки обробка робиться "нальоту". Крім того, мова BIFS дозволяє описувати двовимірні об'єкти, такі як лінії і прямокутники, що неможливо в VRML. (При спільній роботі над MPEG-4, MPEG і Web 3-D Consortium паралельно вели роботу над VRML.)
Згортання даних
Подання мультимедіа-інформації у форматі MPEG-4, принципово нове і багатофункціональне, мабуть, повинно містити засоби для підготовки цієї інформації до транспортування або збереження (а, можливо, і декодування). Для цього всі об'єкти містяться в так звані елементарні потоки (elementary streams - ESs). Деякі об'єкти, такі як звукові треки або відео, можуть мати тільки один такий потік. Інші можуть мати два і більш елементарних потоки. Приміром, якийсь масштабований об'єкт може мати ES, призначений для збереження базової інформації (найгірша якість), і один або більш додаткових рівнів, кожний із який буде мати свій ES з інформацією, що поліпшує якість (відео з більш докладною деталізацією або прискореним режимом відтворення).
Інформація на кожному наступному більш високому рівні (визначення даних за допомогою BIFS, коригування і розміщення медіаоб'єктів) обробється у власному окремому потоці ES. У цьому знов виявляється перевага ієрархічної, об'єктно-орієнтованої моделі MPEG-4. Це значно полегшує розробку нових продуктів при повторному використанні вже наявного об'єкта, оскільки в цьому випадку зміна самого об'єкта не вимагається. Припустимо, що окремі частини сцени повинні використовуватися тільки у певних випадках. Тоді (якщо забезпечена достатня швидкість передачі даних), для представлення однієї і тієї ж сцени в різних ситуаціях можуть використовуватися декілька потоків ES, що цілком описують дану сцену.
Для того, щоб система знала, який з елементарних потоків належить визначеному об'єкту в MPEG-4 впроваджена принципово нова концепція -дескриптор об'єкта (object descriptor - OD). Дескриптори об'єктів у свою чергу містять дескриптори елементарних потоків, щоб інформувати систему про те, який декодер необхідно використовувати для того або іншого потоку. Крім того, дескриптори містять повну текстову інформацію про об'єкт. Дескриптори об'єктів розміщаються в окремому елементарному потоці, що дозволяє динамічно добавляти або знищувати їх при зміні стану сцени.
Одночасне відтворення декількох об'єктів MPEG-4 координується окремим рівнем, виділеним спеціально для забезпечення синхронізації. Елементарні потоки розбиваються на пакети, після чого проводиться їхнє тактування (розподіл часових інтервалів). Після цього пакети готові для передачі на так називаний транспортний рівень.
Потоки тут, потоки там…
Тимчасова інформація необхідна для декодування даних. У ній зберігається тактова частота синхронізатора (таймера) кодера й оцінки часу вхідних потоків відносно цього синхронізатора. Оцінки часу можна розділити на два типи. Оцінки першого типу вказують, коли повинна декодуватися чергова порція інформації, другого - для вказівки моменту готовності інформації до відтворення.
Варто розрізняти ці два типи оцінок. У деяких алгоритмах стиску відеоінформації деякі кадри визначаються шляхом інтерполяції попереднього і наступного кадрів. Таким чином, поки черговий кадр декодується і готується до відтворення, наступний вже повинний бути декодований і поміщений у буфер. Тому, для забезпечення більшої продуктивності декодера в тимчасову інформацію, як правило, додатково записують і параметри буферизації.
Висловлюючись термінологією семирівневої комунікаційної моделі ISO, MPEG-4 не використовує ніякий принципово новий механізм передачі даних. Існуючих на той час засобів виявився цілком достатньо: потік передачі MPEG-2, асинхронний режим передачі (ATM) і Internet-протокол передачі в реальному часі (RTP). Доречі, потік передачі MPEG-2, використовуваний у цифровому телебаченні, згодом зробив істотний вплив на визначення стандартів радіомовлення.
Технологія MPEG-4
Кінематографія по праву вважається одним із найвидатніших відкриттів людства в області мультимедіа-технологій. Перші відкриття в цій області належать Вільяму Діксону (1889 рік). Він досяг відтворення коротких "відеороликов" шляхом зміни статичних зображень із звуком, що навряд чи можна було назвати синхронізованим. Начальник Діксона, Томас Едісон, не оцінив цей винахід через низьку, на його думку, якість звука і зображення та швидкого зносу устаткування. Повноцінного розвитку кінематографія набула лише через 40 років.
Але навіть у наші дні, в епоху революції в області мультимедіа- і Internet-технологій, і незважаючи на свою масовість і глобальність, кінематографія має надзвичайну подібність із невдалим проектом Діксона. Інші популярні засоби комунікації (мобільний зв'язок і т.п.) також не могли повною мірою вирішити проблему ефективної передачі графічної інформації. Сьогодні, завдяки MPEG-4 (так був названий новий стандарт, що викликав революцію у сфері мультимедіа), проект багаторічної давнини був, нарешті, реалізований.
Новий стандарт розроблявся протягом п'яти років групою фахівців Moving Picture Experts Group (MPEG) на базі Міжнародної Організації по стандартизації (ISO) у Женеві. Дослідження проводилися на базі самого сучасного цифрового устаткування. Відеозображення і звук, записані по новій технології порівнянні по якості з їхніми копіями, згенерованими комп'ютером. Новий формат запису звукової інформації дозволяє досягти якості відтворення рівня компакт-дисків поряд із прийнятною швидкістю передачі даних, а, при необхідності, досягти оптимального балансу якості і швидкості відтворення.
З появою MPEG-4 програми відтворення графічних і звукових даних перестали бути "пасивними". Високий рівень "інтерактивності" сучасних аудіовізуальних систем дозволяє користувачу без зайвих зусиль зупинити або ж запустити відтворення відео. Можливості MPEG-4 дуже різноманітні: вони дозволяють користувачу маніпулювати об'єктами, отриманими як із так називаних природних джерел, таких як реальне відео, так і із синтетичних джерел (систем комп'ютерного проектування або комп'ютерної мультиплікації). Користувач може редагувати окремі кадри шляхом видалення або додавання окремих об'єктів, переміщення об'єктів і навіть управляти їхньою поведінкою (наприклад, кліком мишкою на об'єкті можна змусити його обертатися).
Мабуть, основна вимога до механізму MPEG - забезпечення його надійності. Для цього були розроблені уніфіковані (і, одночасно, забезпечуючі високу якість) аудіо- і відео кодери та декодери, доступні в Internet і призначені для запобігання конфліктів при використанні інших форматів. Таким чином, користувачу доводиться вибирати з безлічі форматів відео: QuickTime корпорації Apple Corp., AVI корпорації Microsoft або, наприклад, RealVideo компанії RealNetworks Inc., і ще більшої кількості аудіоформатів.
Крім того, для оптимізації роботи через Internet стандарт дозволяє працювати навіть при низькій швидкості передачі даних та на безпроводних пристроях. Таким чином, у залежності від якості з'єднання і трафіку забезпечується різна швидкість доступу до інформації. Для цього MPEG-4 підтримує можливість одноразового кодування з наступним відтворенням із різною якістю і на різній швидкості передача даних, у залежності від термінального устаткування.
З іншого боку, цю перевагу можна розглядати як погляд у майбутнє, коли телебачення поряд із звичайним віщанням дозволить приймати інформацію від інтерактивних цифрових джерел. Тому MPEG-4 уже передбачає засоби повної інтеграції радіомовної інформації з високоякісними інтерактивними об'єктами MPEG. У перспективі розглядається забезпечення доступу до радіомовної інформації через глобальну мережу. Однак, тут виникає ще одна проблема - неуніфікованість формату Web-ресурсів.
У останні роки дуже популярним стало отримання з Internet цифрових копій аудіоінформації, що дуже негативно відбилося на музичній індустрії. Після появи MPEG-4 і в результаті постійного зниження цін на цифрові пристрої та ж доля почала осягати і відео. У зв'язку з цим для розробників MPEG виникла чергова задача - забезпечення захисту інтелектуальної власності.
Часу на відпочинок немає!
Чи не прийшов ще час для нового стандарту аудіо- і відеоінформації? Відповідь на це питання дає сама історія форматів MPEG. Дебютувавши у 1992 році формат MPEG-1, дотепер широко використовується в країнах Далекого сходу. Це був повноцінний цифровий відеопрогравач що відтворював аудіо- і відеоінформацію в лінійних потоках, забезпечуючи принцип доступу подібний звичайному відеомагнітофону. (Так зване аудіо і видео на рухомій магнітній стрічці. Для його відтворення не потрібно повне попереднє завантаження усього вмісту магнітного носія, програвання робиться паралельно зі зчитуванням і декодуванням.)
У 1995 році був розроблений MPEG-2, поданий як формат для стиску і передачі цифрових телевізійних сигналів (для запису DVD-дисків також використовується кодування MPEG-2.) Однак, незважаючи на те, що нова технологія могла використовуватися як для керування потоками із серверу так і для одержання радіомовної інформації, вона, як і попередня, була лінійною, тобто її інтерактивність обмежувалася стандартними операціями: прискореним або уповільненим відтворенням.
Незабаром з'явився MPEG-4 із його багатофункціональністю і міццю, в основу якого лягла об'єктно-орієнтована модель.
Переваги об'єктної моделі
Якщо провести аналогію з хімією, на атомарному рівні аудіо- і відеокомпоненти MPEG-4 подані як об'єкти. Ці об'єкти можуть існувати незалежно один від одного, можуть групуватися, формуючи аудіовізуальні конструкції вищого рівня. Таке угруповання називається композицією, результатом якого є сцена (кадр). Перевага такого так називаного об'єктно-орієнтованого підходу в можливості маніпулювання будь-яким аудіо- або відеооб'єктом.
Візуальні об'єкти сцени визначаються їхніми координатами в дво- або тривимірному просторі. За аналогією, аудіооб'єкти містяться в звуковому просторі. При розміщенні в просторі об'єкти визначаються тільки один раз. Всі подальші операції й обчислення про зміні стану об'єктів виконуються локально, тобто на терміналі користувача. Це дуже істотно, особливо в тих випадках, коли потрібно одержати високу швидкість обробки при обмеженій швидкості передачі даних.
Мова, що описує стан об'єктів MPEG-4 і їхні динамічні зміни, називається BIFS (Binary Format for Scenes). За допомогою команд цієї мови можна не тільки добавляти або видаляти об'єкти зі сцени, а і змінювати їх візуальні і звукові характеристики незалежно одна від обної.
Команди BIFS можна використовувати для створення анімації шляхом визначення поведінки об'єкта в залежності від дій користувача, оброблених декодером. За допомогою цієї мови можна створювати навіть інтерактивні прикладні програми або, наприклад, використовувати вміст вікна програми (приміром, Web-браузера) у якості текстури сцени.
Багато концепцій BIFS запозичені з Мови Моделювання Віртуальної Реальності (Virtual Reality Modeling Language - VRML), що широко використовується для опису тривимірних об'єктів і керування ними в Internet-програмах. У принципі BIFS і VRML можна розглядати як різні формулювання одної концепції. У мові VRML всі об'єкти й операції над ними, як і в будь-якій мові високого рівня, подані в текстовому виді. У BIFS використовується двійкове представлення, що дозволяє зменшити програмний код приблизно в 10-15 разів.
Основна відмінність BIFS, використовуваного в MPEG-4, від VRML - обробка в реальному часі. Це означає, що для відтворення сцени не потрібно її повне завантаження, оскільки обробка робиться "нальоту". Крім того, мова BIFS дозволяє описувати двовимірні об'єкти, такі як лінії і прямокутники, що неможливо в VRML. (При спільній роботі над MPEG-4, MPEG і Web 3-D Consortium паралельно вели роботу над VRML.)
Згортання даних
Подання мультимедіа-інформації у форматі MPEG-4, принципово нове і багатофункціональне, мабуть, повинно містити засоби для підготовки цієї інформації до транспортування або збереження (а, можливо, і декодування). Для цього всі об'єкти містяться в так звані елементарні потоки (elementary streams - ESs). Деякі об'єкти, такі як звукові треки або відео, можуть мати тільки один такий потік. Інші можуть мати два і більш елементарних потоки. Приміром, якийсь масштабований об'єкт може мати ES, призначений для збереження базової інформації (найгірша якість), і один або більш додаткових рівнів, кожний із який буде мати свій ES з інформацією, що поліпшує якість (відео з більш докладною деталізацією або прискореним режимом відтворення).
Інформація на кожному наступному більш високому рівні (визначення даних за допомогою BIFS, коригування і розміщення медіаоб'єктів) обробється у власному окремому потоці ES. У цьому знов виявляється перевага ієрархічної, об'єктно-орієнтованої моделі MPEG-4. Це значно полегшує розробку нових продуктів при повторному використанні вже наявного об'єкта, оскільки в цьому випадку зміна самого об'єкта не вимагається. Припустимо, що окремі частини сцени повинні використовуватися тільки у певних випадках. Тоді (якщо забезпечена достатня швидкість передачі даних), для представлення однієї і тієї ж сцени в різних ситуаціях можуть використовуватися декілька потоків ES, що цілком описують дану сцену.
Для того, щоб система знала, який з елементарних потоків належить визначеному об'єкту в MPEG-4 впроваджена принципово нова концепція -дескриптор об'єкта (object descriptor - OD). Дескриптори об'єктів у свою чергу містять дескриптори елементарних потоків, щоб інформувати систему про те, який декодер необхідно використовувати для того або іншого потоку. Крім того, дескриптори містять повну текстову інформацію про об'єкт. Дескриптори об'єктів розміщаються в окремому елементарному потоці, що дозволяє динамічно добавляти або знищувати їх при зміні стану сцени.
Одночасне відтворення декількох об'єктів MPEG-4 координується окремим рівнем, виділеним спеціально для забезпечення синхронізації. Елементарні потоки розбиваються на пакети, після чого проводиться їхнє тактування (розподіл часових інтервалів). Після цього пакети готові для передачі на так називаний транспортний рівень.
Потоки тут, потоки там…
Тимчасова інформація необхідна для декодування даних. У ній зберігається тактова частота синхронізатора (таймера) кодера й оцінки часу вхідних потоків відносно цього синхронізатора. Оцінки часу можна розділити на два типи. Оцінки першого типу вказують, коли повинна декодуватися чергова порція інформації, другого - для вказівки моменту готовності інформації до відтворення.
Варто розрізняти ці два типи оцінок. У деяких алгоритмах стиску відеоінформації деякі кадри визначаються шляхом інтерполяції попереднього і наступного кадрів. Таким чином, поки черговий кадр декодується і готується до відтворення, наступний вже повинний бути декодований і поміщений у буфер. Тому, для забезпечення більшої продуктивності декодера в тимчасову інформацію, як правило, додатково записують і параметри буферизації.
Висловлюючись термінологією семирівневої комунікаційної моделі ISO, MPEG-4 не використовує ніякий принципово новий механізм передачі даних. Існуючих на той час засобів виявився цілком достатньо: потік передачі MPEG-2, асинхронний режим передачі (ATM) і Internet-протокол передачі в реальному часі (RTP). Доречі, потік передачі MPEG-2, використовуваний у цифровому телебаченні, згодом зробив істотний вплив на визначення стандартів радіомовлення.
The online video editor trusted by teams to make professional video in
minutes
© Referats, Inc · All rights reserved 2021