Вейвлет разложение. Основы теории вейвлет-преобразования

Задача цифрового моделирования радиосигналов, радиопомех и случайных процессов формулируется как задача нахождения алгоритмов (по возможности наиболее простых), позволяющих получать на ЦВМ дискретные реализации (выборочные функции) моделируемых процессов. Это самостоятельная и довольно сложная задача синтеза дискретных случайных процессов, имитирующих непрерывные процессы с заданными статистическими характеристиками. Она решается путем отыскания удобных для.реализации на ЦВМ линейных и нелинейных (преобразований, с помощью которых можно превратить независимые равномерно или нормально распределенные случайные числа, вырабатываемые датчиком случайных чисел, в случайные последовательности с требуемыми статистическими свойствами.

Задача цифрового моделирования радиосистем формулируется как задача разработки алгоритмов, которые по заданным характеристикам систем, например передаточным функциям и характеристикам нелинейности отдельных звеньев, позволяют точно или с допустимой погрешностью преобразовывать на ЦВМ дискретные реализации входных воздействий в дискретные реализации соответствующих выходных эффектов моделируемых систем. Эти алгоритмы называются цифровыми моделями систем.

Следует пояснить некоторые особенности цифрового моделирования радиосистем и принятого здесь подхода к моделированию.

Развитие теории моделирования вообще, а цифрового моделирования в частности, определяется степенью математического описания явлений и процессов, имеющих место в различных отраслях науки и техники. В отличие от некоторых других областей применения цифрового моделирования, например моделирования производственных процессов или же процессов в биологических системах, где математическое описание явлений часто представляет собой весьма сложную задачу, математическое описание процессов функционирования радиосистем достаточно хорошо развито.

Действительно, основным назначением радиосистем является передача, прием и переработка информации, заключенной в сигналах. С информационной точки зрения радиосистемы можно рассматривать как специализированные вычислительные машины (обычно аналогового типа с весьма высоким быстродействием), точно или приближенно реализующие заранее предписанные алгоритмы работы (см. по этому поводу ). Входящие в эти алгоритмы операции, такие, как модуляция, фильтрация, усиление, преобразование частоты, детектирование, ограничение, накопление, слежение и т. д., как правило, допускают сравнительно простую математическую формулировку.

Математическое описание сводится при этом к переводу известной программы работы радиосистемы, сформулированной на обычном радиотехническом языке, на язык математики, на котором, например, фильтрация, есть скользящее интегрирование, накопление - суммирование, амплитудное детектирование - выделение огибающей и т. д. В результате создается математическая модель радиосистемы. Цифровая модель системы получается на втором этапе, когда на основе математической модели разрабатывается дискретный алгоритм процесса функционирования объекта моделирования, предназначенный для реализации на ЦВМ.

Реализация цифровой модели радиосистемы на ЦВМ означает, по существу, замену специализированной вычислительной машины, которой является данная радиосистема, универсальной ЦВМ.

Подход к моделированию радиосистем как к замене одной вычислительной машины другой - это так называемый функциональный принцип моделирования, согласно которому модель считается эквивалентной оригиналу, если она с достаточной точностью воспроизводит лишь функцию оригинала, например алгоритм преобразования входных сигналов в выходные сигналы радиоприемного устройства. При этом модель и оригинал не подобны в целом, так как при моделировании опускаются несущественные с информационной точки зрения подробности, связанные, например, с конкретным материальным воплощением моделируемой системы. Такой подход к моделированию целесообразен в ряде задач, например при выборе принципов построения радиосистем на этапе проектирования, при оценке помехоустойчивости схем (алгоритмов) обработки сигналов, при оценке эффективности помех и при других исследованиях.

Конечно, существуют задачи, при решении которых методом моделирования функциональный принцип нецелесообразен, например, при исследовании влияния параметров реальных элементов (электровакуумных и полупроводниковых приборов, индуктивностей, емкостей, сопротивлений и т. д.), из которых состоит данное радиоустройство (блок), на его характеристики: передаточные функции, стабильность, линейность, динамический диапазон и т. д. В этих случаях нужно переходить на уровень более подробного моделирования. Такой подход к моделированию в зарубежной литературе называется применением ЦВМ для анализа и синтеза цепей . В данной монографии эти методы цифрового моделирования не рассматриваются.

В ней приводятся методы цифрового моделирования, основанные на знании более обобщенных характеристик систем, чем характеристики их простейших элементов. В качестве таких обобщенных характеристик используются алгоритмы работы систем, следующие из их функционального назначения, передаточные функции или импульсные переходные характеристики линейных динамических звеньев, характеристики нелинейности нелинейных блоков, образующих систему, т. е. моделирование осуществляется на уровне функциональных, а не принципиальных схем систем.

Обычно моделируемые радиосистемы можно представить как комбинацию лишь двух основных типов звеньев - линейных инерционных звеньев (усилители, фильтры, следящие системы и т. д.) и нелинейных безынерционных звеньев (ограничители, детекторы, логические блоки и т. д.). Из этих двух типов функциональных единиц путем наращивания блок-схемы и варьирования характеристик звеньев строятся радиосистемы любой сложности. Алгоритмы для моделирования таких функциональных систем нетрудно найти, зная алгоритмы для моделирования отдельных звеньев систем.

Задача математического описания функционирования звеньев радиосистем не имеет однозначного решения. Например, линейную фильтрацию можно описать как процесс изменения амплитуд и фаз гармоник входного воздействия (метод Фeрье) и как скользящее интегрирование входного процесса с некоторым весом (метод интеграла Дюамеля. В свою очередь, одной и той же математической модели могут соответствовать различные цифровые модели; например, процесс непрерывной фильтрации, заданный в виде интеграла Дюамеля, может быть представлен в дискретной форме как скользящее суммирование и как процесс вычисления в соответствии с рекуррентным разностным уравнением. В связи с этим основным направлением при разработке методов цифрового моделирования радиосистем является не столько математическое описание и создание их цифровых моделей вообще, сколько нахождение эквивалентных цифровых моделей и выбор среди них наиболее удобных для реализации на ЦВМ, т. е. наиболее эффективных с точки зрения выбранного критерия эффективности.

В качестве такого критерия используется в дальнейшем критерий минимума вычислительных затрат (минимального объема и времени вычислений) при заданной точности моделирования.

В книге изложены различные методы сокращения вычислительных затрат. Основными из них являются следующие.

1. Использование при моделировании сигналов, помех и процессов функционирования систем экономичных рекуррентных (марковских) алгоритмов, согласно которым очередное состояние объекта моделирования можно легко найти, зная одно или несколько его предыдущих состояний. (Этот метод имеет довольно большую область применения, так как многие процессы в радиосистемах являются либо строго, либо приближенно марковскими.)

2. Применение метода огибающих с целью исключения из рассмотрения высокочастотных составляющих несущей частоты.

3. Эквивалентные преобразования функциональных схем систем с целью получения более простых для моделирования функционально подобных систем.

4. Разномасштабное моделирование (использование малого шага дискретизации для быстроизменяющихся процессов и большого шага дискретизации для медленно изменяющихся процессов при моделировании систем, процессы в которых одновременно протекают в различных участках частотного диапазона) и моделирование с переменным масштабом (использование переменного шага дискретизации).

Применение указанных методов сближает по быстродействию цифровое и аналоговое моделирование. В других аспектах цифровое и аналоговое моделирования радиосистем могут иметь различную эффективность, определяемую достоинствами и недостатками цифровых и аналоговых вычислительных машин.

Однако там, где требуется иметь универсальный аппарат для моделирования разнообразных систем: дискретных автоматов, непрерывных и дискретных динамических систем (линейных и нелинейных с постоянными, переменными, сосредоточенными и распределенными параметрами), систем массового обслуживания и т. д., там, где требуется высокая точность, развитая логика, наличие эффективной системы памяти, большой динамический диапазон величин, цифровое моделирование имеет существенные преимущества перед аналоговым.

К недостаткам цифрового моделирования в настоящее время следует отнести: сравнительно невысокое быстродействие, несовершенную еще систему связи «человек - машина» (недостаточно наглядная регистрация результатов, трудности изменения параметров и структуры моделируемой системы в процессе решения задачи), высокую стоимость часа машинного времени. Однако есть основания считать, что в дальнейшем, по мере совершенствования электронной цифровой вычислительной техники и методов ее математического обеспечения, указанные недостатки будут устранены. Некоторые дополнительные преимущества и недостатки цифрового моделирования отмечены в ходе изложения материала.

Аналоговое моделирование осуществляется более просто, превосходит в ряде случаев цифровое моделирование по быстродействию, отличается большей наглядностью, экономически более выгодно, однако оно имеет невысокую точность, сравнительно небольшой динамический диапазон и не столь универсально. Этот вид моделирования наиболее эффективно применяется как известно , при исследовании непрерывных динамических систем, описываемых обыкновенными дифференциальными уравнениями.

Недостатки аналогового моделирования могут быть компенсированы в комбинированных аналого-цифровых моделях .

В данной книге речь будет идти лишь о цифровом моделировании, однако некоторые рассматриваемые в ней методы могут быть использованы и при аналоговом, а также при аналого-цифровом моделировании, например метод формирующего фильтра при моделировании случайных сигналов.

В дальнейшем вместо термина «цифровое моделирование», как правило, будет использоваться термин «моделирование».

Поскольку в книге рассматриваются методы математического моделирования, то в ней «много математики». Однако для понимания материала от читателя требуется не столько знаний математики в ее строгом классическом смысле, сколько знаний «радиоматематики», по терминологии С. М. Рытова , и «математики контуров», то. терминологии Вудворда , а также вопросов прикладной теории случайных процессов и статистической радиотехники в объеме соответствующих глав книг . Кроме этого от читателя требуется знать некоторые основы математического аппарата теории дискретных систем, в частности основные свойства -преобразования , возможности ЦВМ и принципы программирования .

В книге не приводятся блок-схемы возможных программ для реализации на ЦВМ моделирующих алгоритмов. Алгоритмы даны в формульном виде. Для пояснения формульных алгоритмов приводятся передаточные функции и структурные схемы дискретных фильтров, осуществляющих операции над входными числовыми последовательностями в точном соответствии с предлагаемыми алгоритмами.

Вейвлет-преобразование - преобразование, похожее на преобразование Фурье (или гораздо больше на оконное преобразование Фурье) с совершенно иной оценочной функцией. Основное различие лежит в следующем: преобразование Фурье раскладывает сигнал на составляющие в виде синусов и косинусов, т.е. функций, локализованных в Фурье-пространстве; напротив, вейвлет-преобразование использует функции, локализованные как в реальном, так и в в Фурье-пространстве. В общем, вейвлет-преобразование может быть выражено следующим уравнением:

где * - символ комплексной сопряженности и функция ψ - некоторая функция. Функция может быть выбрана произвольным образом, но она должна удовлетворять определённым правилам.

Как видно, вейвлет-преобразование на самом деле является бесконечным множеством различных преобразований в зависимости от оценочной функции, использованной для его расчёта. Это является основной причиной, почему термин «вейвлет-преобразование » используется в весьма различных ситуациях и для различных применений. Также существует множество типов классификации вариантов вейвлет-преобразования. Здесь мы покажем только деление, основанное на ортогональности вейвлетов. Можно использовать ортогональные вейвлеты для дискретного вейвлет-преобразования и неортогональные вейвлеты для непрерывного. Эти два вида преобразования обладают следующими свойствами:

Дискретное вейвлет-преобразование возвращает вектор данных той же длины, что и входной. Обычно, даже в этом векторе многие данные почти равны нулю. Это соответствует факту, что он раскладывается на набор вейвлетов (функций), которые ортогональны к их параллельному переносу и масштабированию. Следовательно, мы раскладываем подобный сигнал на то же самое или меньшее число коэффициентов вейвлет-спектра, что и количество точек данных сигнала. Подобный вейвлет-спектр весьма хорош для обработки и сжатия сигналов, например, поскольку мы не получаем здесь избыточной информации.
Непрерывное вейвлет-преобразование, напротив, возвращает массив на одно измерение больше входных данных. Для одномерных данных мы получаем изображение плоскости время-частота. Можно легко проследить изменение частот сигнала в течение его длительности и сравнивать этот спектр со спектрами других сигналов. Поскольку здесь используется неортогональный набор вейвлетов, данные высоко коррелированы и обладают большой избыточностью. Это помогает видеть результат в более близком человеческому восприятию виде.

Дополнительные подробности о вейвлет-преобразовании доступны на тысячах интернет-ресурсов о вейвлетах в сети, или, например, здесь .

В библиотеке обработки данных Gwyddion реализованы оба этих преобразования и использующие вейвлет-преобразование модули доступны в меню Обработка данных → Интегральные преобразования .

Дискретное вейвлет-преобразование

Дискретное вейвлет-преобразование (DWT) - реализация вейвлет-преобразования с использованием дискретного набора масштабов и переносов вейвлета, подчиняющихся некоторым определённым правилам. Другими словами, это преобразование раскладывает сигнал на взаимно ортогональный набор вейвлетов, что является основным отличием от непрерывного вейвлет-преобразования (CWT), или его реализации для дискретных временных рядов, иногда называемой непрерывным вейвлет-преобразованием дискретного времени (DT-CWT).

Вейвлет может быть сконструирован из функции масштаба, которая описывает свойства его масштабируемости. Ограничение состоит в том, что функция масштаба должна быть ортогональна к своим дискретным преобразованиям, что подразумевает некоторые математические ограничения на них, которые везде упоминаются, т.е. уравнение гомотетии

где S - фактор масштаба (обычно выбирается как 2). Более того, площадь под функцией должна быть нормализована и функция масштабирования должна быть ортогональна к своим численным переносам, т.е.

После введения некоторых дополнительных условий (поскольку вышеупомянутые ограничения не приводят к единственному решению) мы можем получить результат всех этих уравнений, т.е. конечный набор коэффициентов a k которые определяют функцию масштабирования, а также вейвлет. Вейвлет получается из масштабирующей функции как N где N - чётное целое. Набор вейвлетов затем формирует ортонормированный базис, который мы используем для разложения сигнала. Следует отметить, что обычно только несколько коэффициентов a k будут ненулевыми, что упрощает расчёты.

На следующем рисунке показаны некоторые масштабирующие функции и вейвлеты. Наиболее известным семейством ортонормированных вейвлетов явлется семейство Добеши. Её вейвлеты обычно обозначаются числом ненулевых коэффициентов a k , таким образом, мы обычно говорим о вейвлетах Добеши 4, Добеши 6, и т.п. Грубо говоря, с увеличением числа коэффициентов вейвлета функции становятся более гладкими. Это явно видно при сравнении вейвлетов Добеши 4 и 20, представленных ниже. Другой из упомянутых вейвлетов - простейший вейвлет Хаара, который использует прямоугольный импульс как масштабирующую функцию.

Функция масштабирования Хаара и вейвлет (слева) и их частотные составляющие (справа).

Функция масштабирования Добеши 4 и вейвлет (слева) и их частотные составляющие (справа).

Функция масштабирования Добеши 20 и вейвлет (слева) и их частотные составляющие (справа).

Существует несколько видов реализации алгоритма дискретного вейвлет-преобразования. Самый старый и наиболее известный – алгоритм Малла (пирамидальный). В этом алгоритме два фильтра – сглаживающий и несглаживающий составляются из коэффициентов вейвлета и эти фильтры рекуррентно применяются для получения данных для всех доступных масштабов. Если используется полный набор данных D = 2 N и длина сигнала равна L , сначала рассчитываются данные D /2 для масштаба L /2 N - 1 , затем данные (D /2)/2 для масштаба L /2 N - 2 , … пока в конце не получится 2 элемента данных для масштаба L /2 . Результатом работы этого алгоритма будет массив той же длины, что и входной, где данные обычно сортируются от наиболее крупных масштабов к наиболее мелким.

В Gwyddion для расчёта дискретного вейвлет-преобразования используется пирамидальный алгоритм. Дискретное вейвлет-преобразование в двумерном пространстве доступно в модуле DWT.

Дискретное вейвлет-преобразование может использоваться для простого и быстрого удаления шума с зашумлённого сигнала. Если мы возьмём только ограниченное число наиболее высоких коэффициентов спектра дискретного вейвлет-преобразования, и проведём обратное вейвлет-преобразование (с тем же базисом) мы можем получить сигнал более или менее очищенный от шума. Есть несколько способов как выбрать коэффициенты, которые нужно сохранить. В Gwyddion реализованы универсальный порог, адаптивный по масштабу порог и адаптивный по масштабу и пространству порог . Для определения порога в этих методах мы сперва определяем оценку дисперсии шума, заданную

где Y ij соответствует всем коэффициентам наиболее высокого поддиапазона масштаба разложения (где, как предполагается, должна присутствовать большая часть шума). Или же дисперсия шума может быть получена независимым путём, например, как дисперсия сигнала АСМ, когда сканирование не идёт. Для наиболее высокого поддиапазона частот (универсальный порог) или для каждого поддиапазона (для адаптивного по масштабу порога) или для окружения каждого пикселя в поддиапазоне (для адаптивного по масштабу и пространству порога) дисперсия рассчитывается как

Значение порога считается в конечном виде как

Когда порог для заданного масштаба известен, мы можем удалить все коэффициенты меньше значения порога (жесткий порог) или мы можем уменьшит абсолютное значение этих коэффициентов на значение порога (мягкий порог).

Удаление шума DWT доступно в меню Обработка данных → Интегральные преобразования → Удаление шума DWT .

Непрерывное вейвлет-преобразование

Непрерывное вейвлет-преобразование (CWT) - реализация вейвлет-преобразования с использованием произвольных масштабов и практически произвольных вейвлетов. Используемые вейвлеты не ортогональны и данные, полученные в ходе этого преобразования высоко коррелированы. Для дискретных временных последовательностей также можно использовать это преобразование, с ограничением что наименьшие переносы вейвлета должны быть равны дискретизации данных. Это иногда называется непрерывным вейвлет-преобразованием дискретного времени (DT-CWT) и это наиболее часто используемый метод расчёта CWT в реальных применениях.

В принципеЮ непрерывное вейвлет-преобразование работает используя напрямую определение вейвлет-преобразования, т.е. мы рассчитываем свёртку сигнала с масштабированным вейвлетом. Для каждого масштаба мы получаем этим способом набор той же длины N , что и входной сигнал. Используя M произвольно выбранных масштабов мы получаем поле N×M , которое напрямую представляет плоскость время-частота. Алгоритм, используемый для этого расчёта может быть основан на прямой свёртке или на свёртке посредством умножения в Фурье-пространстве (это иногда называется быстрым вейвлет-преобразованием).

Выбор вейвлета для использования в разложении на время-частоту является наиболее важной вещью. Этим выбором мы можем влиять на разрешение результата по времени и по частоте.Нельзя изменить этим путём основные характеристики вейвлет-преобразования (низкие частоты имеют хорошее разрешение по частотам и плохое по времени; высокие имеют плохое разрешение по частотам и хорошее по времени), но можно несколько увеличить общее разрешение по частотам или по времени. Это напрямую пропорционально ширине используемого вейвлета в реальном и Фурье-пространстве. Если, например, использовать вейвлет Морле (реальная часть – затухающая функция косинуса), то можно ожидать высокого разрешения по частотам, поскольку такой вейвлет очень хорошо локализован по частоте. наоборот, используя вейвлет Производная Гауссиана (DOG) мы получим хорошую локализацию по времени, но плохую по частоте.

Непрерывное вейвлет-преобразование реализовано в модуле CWT, который доступен в меню Обработка данных → Интегральные преобразования → CWT .

Источники

A. Bultheel: Bull. Belg. Math. Soc.: (1995) 2

S. G. Chang, B. Yu, M. Vetterli: IEEE Trans. Image Processing, (2000) 9 p. 1532

S. G. Chang, B. Yu, M. Vetterli: IEEE Trans. Image Processing, (2000) 9 p. 1522

Tutorial

Вейвлеты сейчас на слуху. Даже неискушённые в математике люди наверняка слышали, что с их помощью удаётся сжимать изображения и видео сохраняя приемлемое качество. Но что же такое вейвлет? Википедия отвечает на этот вопрос целым ворохом формул за которыми не так-то легко увидеть суть.

Попробуем на простых примерах разобраться, откуда же вообще берутся вейвлеты и как их можно использовать при сжатии. Предполагается, что читатель знаком с основами линейной алгебры, не боится слов вектор и матрица, а также умеет их перемножать. (А во даже попробуем что-то запрограммировать.)

Сжатие изображений

Упрощённо, изображение представляют собой таблицу, в ячейках которой хранятся цвета каждого пикселя. Если мы работаем с чёрно-белым (или, точнее, серым) изображением, то вместо цвета в ячейки помещают значения яркости из отрезка . При этом 0 соответствует чёрному цвету, 1 - белому. Но с дробями работать неудобно, поэтому часто значения яркости берут целыми из диапазона от 0 до 255. Тогда каждое значение будет занимать ровно 1 байт.

Даже небольшие изображения требуют много памяти для хранения. Так, если мы кодируем яркость каждого пикселя одним байтом, то изображение одного кадра формата FullHD (1920×1080) займёт почти два мегабайта. Представьте, сколько памяти потребуется для хранения полуторачасового фильма!

Поэтому изображения стремятся сжать. То есть закодировать таким образом, чтобы памяти для хранения требовалось меньше. А во время просмотра мы декодируем записанные в память данные и получаем исходный кадр. Но это лишь в идеале.

Существует много алгоритмов сжатия данных. О их количестве можно судить по форматам, поддерживаемым современными архиваторами: ZIP, 7Z, RAR, ACE, GZIP, HA, BZ2 и так далее. Неудивительно, что благодаря активной работе учёных и программистов в настоящее время степень сжатия данных вплотную подошла к теоретическому пределу.

Плохая новость в том, что для изображения этот теоретический предел не так уж и велик. Попробуйте сохранить фотографию (особенно с большим количеством мелких деталей) в формате PNG - размер получившегося файла может вас расстроить.

Это происходит из-за того, что в изображениях из реального мира (фотографиях, например) значения яркости редко бывают одинаковыми даже у соседних пикселей. Всегда есть мельчайшие колебания, которые неуловимы человеческим глазом, но которые алгоритм сжатия честно пытается учесть.

Алгоритмы сжатия «любят», когда в данных есть закономерность. Лучше всего сжимаются длинные последовательности нулей (закономерность тут очевидна). В самом деле, вместо того, чтобы записывать в память 100 нулей, можно записать просто число 100 (конечно, с пометкой, что это именно количество нулей). Декодирующая программа «поймёт», что имелись в виду нули и воспроизведёт их.

Однако если в нашей последовательности в середине вдруг окажется единица, то одним числом 100 ограничится не удастся.

Но зачем кодировать абсолютно все детали? Ведь когда мы смотрим на фотографию, нам важен общий рисунок, а незначительные колебания яркости мы и не заметим. А значит, при кодировании мы можем немного изменить изображение так, чтобы оно хорошо кодировалось. При этом степень сжатия сразу вырастет. Правда, декодированное изображение будет незначительно отличаться от исходного, но кто заметит?

Преобразование Хаара

Итак, наша цель - преобразовать изображение так, чтобы оно хорошо сжималось классическими алгоритмами. Подумаем, как нужно изменить его, чтобы получить длинные цепочки нулей.

У «реальных» изображений, таких как фотографии, есть одна особенность - яркость соседних пикселей обычно отличается на небольшую величину. В самом деле, в мире редко можно увидеть резкие, контрастные перепады яркости. А если они и есть, то занимают лишь малую часть изображения.

Рассмотрим фрагмент первой строки яркостей из известного изображения «Lenna» (на рисунке).

154, 155, 156, 157, 157, 157, 158, 156

Видно, что соседние числа очень близки. Чтобы получить желаемые нули или хотя бы что-то близкое к ним, можно закодировать отдельно первое число, а потом рассматривать лишь отличия каждого числа от предыдущего.

Получаем:

154, 1, 1, 1, 0, 0, 1, -2.

Уже лучше! Такой метод в самом деле используется и называется дельта-кодированием. Но у него есть серьёзные недостаток - он нелокальный. То есть нельзя взять кусочек последовательности и узнать, какие именно яркости в нём закодированы без декодирования всех значений перед этим кусочком.

Попробуем поступить иначе. Не будем пытаться сразу получить хорошую последовательность, попробуем улучшить её хотя бы немного.

Для этого разобьём все числа на пары и найдём полусуммы и полуразности значений в каждой из них.

(154, 155), (156, 157), (157, 157), (158, 156)
(154.5, 0.5), (156.5, 0.5), (157, 0.0), (157, -1.0)

Почему именно полусуммы и полуразности? А всё очень просто! Полусумма - это среднее значение яркости пары пикселей. А полуразность несёт в себе информацию об отличиях между значениями в паре. Очевидно, зная полусумму a и полуразность d можно найти и сами значения:
первое значение в паре = a - d,
второе значение в паре = a + d.

Это преобразование было предложено в 1909 году Альфредом Хааром и носит его имя.

А где же сжатие?

Полученные числа можно перегруппировать по принципу «мухи отдельно, котлеты отдельно», разделив полусуммы и полуразности:

154.5, 156.5, 157, 157; 0.5, 0.5, 0.0, -1.0.

Числа во второй половине последовательности как правило будут небольшими (то, что они не целые, пусть пока не смущает). Почему так?

Как мы уже выяснили раньше, в реальных изображениях соседние пиксели редко отличаются друг от друга значительно. Если значение одного велико, то и другого велико. В таких случаях говорят, что соседние пиксели коррелированы.

В самом деле, рассмотрим первые 2000 пар соседних пикселей и каждую пару представим на графике точкой.

Все точки выстраиваются вдоль одной прямой линии. И так практически во всех реальных изображениях. Верхний левый и нижний правый углы изображения практически всегда пусты.

А теперь рассмотрим график, точками в котором будут полусуммы и полуразности.

Видно, что полуразности находятся в гораздо более узком диапазоне значений. А это значит, что на них можно потратить меньше одного байта. Какое-никакое, а сжатие.

Применим математику!

Попробуем записать математические выражения, описывающие преобразование Хаара.

Итак, у нас была пара пикселей (вектор) , а мы хотим получить пару .

Такое преобразование описывается матрицей .

В самом деле , что нам и требовалось.

Внимательный читатель наверняка заметил, что рисунки из точек на двух последних графиках одинаковы. Разница лишь в повороте на угол в 45°.

В математике повороты и растяжения называются аффинными преобразованиями и описываются как раз при помощи умножения матрицы на вектор. Что мы и получили выше. То есть, преобразование Хаара - это просто поворот точек таким образом, чтобы их можно было удобно и компактно закодировать.

Правда, тут есть один нюанс. При аффинных преобразованиях может меняться площадь фигуры. Не то, чтобы это было плохо, но как-то неаккуратненько. Как известно, коэффициент изменения площади равен определителю матрицы. Посмотрим, каков он для преобразования Хаара.

Для того, чтобы определитель стал равен единице достаточно умножить каждый элемент матрицы на . На угол поворота (а значит, и на «сжимающую способность» преобразования) это не повлияет.

Получаем в итоге матрицу

А как декодировать?

Как известно, если у матрицы определитель не равен нулю, то для неё существует обратная матрица, «отменяющая» её действие. Если мы найдём обратную матрицу для H, то декодирование будет заключаться просто в умножении векторов с полусуммами и полуразностями на неё.

Вообще говоря, поиск обратной матрицы - не такая простая задача. Но, может, удастся как-то эту задачу упростить?

Рассмотрим поближе нашу матрицу. Она состоит из двух вектор-строк: и . Назовём их v 1 и v 2 .

Они обладают интересными свойствами.

Во-первых, их длины равны 1, то есть . Здесь буква T означает транспонирование. Умножение вектор-строки на транспонированный вектор-строку - это скалярное произведение.

Во-вторых, они ортогональны, то есть .

Матрица, строки которой обладают указанными свойствами называется ортогональной. Чрезвычайно важным свойством таких матриц является то, что обратную матрицу для них можно получить простым транспонированием.

В справедливости этого выражения можно убедиться умножив H обратную матрицу. На диагонали мы получим скалярные произведения вектор-строк на самих себя, то есть 1. А вне диагоналей - скалярные произведения вектор-строк друг на друга, то есть 0. В итоге произведение будет равно единичной матрице.

Мы любим ортогональные матрицы!

Увеличиваем число точек

Всё сказанное хорошо работает для двух точек. Но что делать, если точек больше?

В этом случае тоже можно описать преобразование матрицей, но большей по размеру. Диагональ этой матрицы будет состоять из матриц H, таким образом в векторе исходных значений будут выбираться пары, к которым независимо будет применяться преобразование Хаара.

То есть. исходный вектор просто обрабатывается независимо по парам.

Фильтры

Итак, когда мы знаем, как выполнять преобразование Хаара, попробуем разобраться с тем, что же оно нам даёт.

Полученные «полусуммы» (из-за того, что делим не на 2, приходится использовать кавычки) - это, как мы уже выяснили, средние значения в парах пикселей. То есть, фактически, значения полусумм - это уменьшенная копия исходного изображения! Уменьшенная потому, что полусумм в два раза меньше, чем исходных пикселей.

Но что такое разности?

Полусуммы усредняют значения яркостей, то есть «отфильтровывают» случайные всплески значений. Можно считать, что это некоторый частотный фильтр.

Аналогично, разности «выделяют» среди значений межпиксельные «всплески» и устраняют константную составляющую. То есть, они «отфильтровывают» низкие частоты.

Таким образом, преобразование Хаара - это пара фильтров, разделяющих сигнал на низкочастотную и высокочастотную составляющие. Чтобы получить исходный сигнал, нужно просто снова объединить эти составляющие.

Что нам это даёт? Пусть у нас есть фотография-портрет. Низкочастотная составляющая несёт в себе информацию об общей форме лица, о плавных перепадах яркости. Высокочастотная - это шум и мелкие детали.

Обычно, когда мы смотрим на портрет, нас больше интересует низкочастотная составляющая, а значит при сжатии часть высокочастотных данных можно отбросить. Тем более, что, как мы выяснили, она обычно имеет меньшие значения, а значит более компактно кодируется.

Степень сжатия можно увеличить, применяя преобразование Хаара многократно. В самом деле, высокочастотная составляющая - это всего лишь половина от всего набора чисел. Но что мешает применить нашу процедуру ещё раз к низкочастотным данным? После повторного применения, высокачастотная информация будет занимать уже 75%.

Хоть мы пока и говорили об одномерных цепочках чисел, этот подход хорошо применим и для двумерных данных. Чтобы выполнить двумерное преобразование Хаара (или аналогичное ему), нужно лишь выполнить его для каждой строки и для каждого столбца.

После многократного применения к, например, фотографии замка Лихтенштейн, получим следующий рисунок.

Черные области соответствуют низкой яркости, то есть значениям, близким к нулю. Как показывает практика, если значение достаточно мало, то его можно округлить или вообще обнулить без особого ущерба для декодированного рисунка.

Этот процесс называется квантованием. И именно на этом этапе происходит потеря части информации. (К слову, такой же подход используется в JPEG, только там вместо преобразования Хаара используется дискретное косинус-преобразование.) Меняя число обнуляемых коэффициентов, можно регулировать степень сжатия!

Конечно, если обнулить слишком много, то искажения станут видны на глаз. Во всём нужна мера!

После всех этих действий у нас останется матрица, содержащая много нулей. Её можно записать построчно в файл и сжать каким-то архиватором. Например, тем же 7Z. Результат будет неплох.

Декодирование производится в обратном порядке: распаковывем архив, применяем обратное преобразование Хаара и записываем декодированную картинку в файл. Вуаля!

Где эффективно преобразование Хаара?

Когда преобразование Хаара будет давать наилучший результат? Очевидно, когда мы получим много нулей, то есть, когда изображение содержит длинные участки одинаковых значений яркости. Тогда все разности обнулятся. Это может быть, например, рентгеновский снимок, отсканированный документ.

Говорят, что преобразование Хаара устраняет константную составляющую (она же - момент нулевого порядка), то есть переводит константы в нули.

Но всё же в реальных фотографиях областей с одинаковой яркостью не так много. Попробуем усоврешенствовать преобразование, чтобы оно обнуляло ещё и линейную составляющую. Иными словами, если значения яркости будут увеличивать линейно, то они тоже обнулятся.

Эту задачу и более сложные (устранение моментов более высоких порядков) решила Ингрид Добеши - один из создателей теории вейвлетов.

Преобразование Добеши

Для нашего усовершенствованного преобразования уже будет мало двух точек. Поэтому будем брать по четыре значения, смещаясь каждый раз на два.

То есть, если исходная последовательность - 1, 2, 3, 4, 5, 6,…, N-1, N, то будем брать четвёрки (1, 2, 3, 4), (3, 4, 5, 6) и т. д. Последняя четвёрка «кусает последовательность за хвост»: (N-1, N, 1, 2).

Точно так же попробуем построить два фильтра: высокочастотный и низкочастотный. Каждую четвёрку будем заменять на два числа. Так как четвёрки перекрываются, то количество значений после преобразования не изменится.

Пусть значения яркостей в четвёрке равны x, y, z, t. Тогда первый фильтр запишем в виде

Четыре коэффициента, образующих вектор-строку матрицы преобразования, пока нам неизвестны.

Чтобы вектор-строка коэффициентов второго фильтра был ортогонален первому, возьмём те же коэффициенты но переставим их и поменяем знаки:

Матрица преобразования будет иметь вид.

Требование ортогональности выполняется для первой и второй строк автоматически. Потребуем, чтобы строки 1 и 3 тоже были ортогональны:

Векторы должны иметь единичную длину (иначе определитель будет не единичным):

Преобразование должно обнулять цепочку одинаковых значений (например, (1, 1, 1, 1)):

Преобразование должно обнулять цепочку линейно растущих значений (например, (1, 2, 3, 4)):

Кстати, если обнуляется эта четвёрка, то будут обнуляться и любые другие линейно растущие или линейно убывающие. В этом легко убедиться, записав соответствующее уравнение и разделив все коэффициенты на первый множитель.

Получили 4 уравнения, связывающие коэффициенты. Решая их, получаем:

Подставив их в матрицу, получаем искомое преобразования. После его применения к фотографиям получим больше нулей и малых коэффициентов, что позволит сжать изображение сильнее.

Другая приятная особенность - артефакты после квантования будут не так заметны.

Это преобразование получило название вейвлета D4 (читателю предлагается самостоятельно разгадать тайну этого буквенно-цифрового названия).

Другие вейвлеты

Мы, конечно, можем не остановиться на этом, и потребовать устранения параболической составляющей (момент 2-го порядка) и так далее. В результате получим вейвлеты D6, D8 и другие.

Чтобы не считать всё вручную, коэффициенты можно посмотреть в википедии .

Добеши открыла весьма интересный способ получения коэффициентов этих преобразований, но увы, это уже выходит за рамки нашей статьи.

Домашнее задание

Чтобы окончательно разобраться с основами, предлагаю написать на вашем любимом языке программу, которая открывает изображение, выполняет преобразование Хаара (или даже D4), квантует результат, а потом сохраняет результат в файл. Попробуйте сжать этот файл своим любимым архиватором. Хорошо сжимается?

Попробуйте выполнить обратное преобразование. Как вы объясните характер артефактов на изображении?

Заключение

Итак, мы кратко рассмотрели основные идеи дискретного вейвлет-преобразования.

Конечно, в этой статье не были рассмотрены очень многие интересные математические детали и практические применения вейвлет-преобразований. Но нельзя объять необъятное. Да и многое сложно объяснить не повышая градус матана. Надеюсь, что и написанное оказалось кому-то полезным. Добавить метки

Вейвлеты (от англ. wavelet ), всплески - это математические функции, позволяющие анализировать различные частотные компоненты данных. Вейвлет-коэффициенты определяются интегральным преобразованием сигнала. Полученные вейвлет-спектрограммы принципиально отличаются от обычных спектров Фурье тем, что дают четкую привязку спектра различных особенностей сигналов ко времени.

Для обработки дискретных сигналов используется дискретное вейвлет-преобразование (ДВП, DWT).

Первое ДВП было предложно венгерским математиком Альфредом Хааром. Для входного сигнала, представленного массивом 2 n чисел, вейвлет преобразование Хаара просто группирует элементы по 2 и образует от них суммы и разности. Группировка сумм проводится рекурсивно для образования следующего уровня разложения. В итоге получается 2 n −1 разность и 1 общая сумма. Мы начнем с одномерного массива данных, состоящего из N элементов. В принципе, этими элементами могут быть соседние пикселы изображения или последовательные звуковые фрагменты. Примером будет служить массив чисел (2,9,12,10,9,8, 8,7). Сначала вычислим четыре средние величины (Рис. 40)

Ясно, что знания этих четырех полусумм не достаточно для восстановления всего массива, поэтому мы еще вычислим четыре полуразности

(2 - 9)/2 = - 4,5,

(12 - 10)/2 = 1,

(9 – 8)/2 = 0,5,

(8 – 7)/2 = 0,5,

которые будем называть коэффициентами деталей. Средние числа можно представлять себе крупномасштабным разрешением исходного образа, а детали необходимы для восстановления мелких подробностей или поправок. Если исходные данные коррелированы, то крупномасштабное разрешение повторит исходный образ, а детали будут малыми.

Массив, состоящий из четырех полусумм и четырех полуразностей, можно использовать для восстановления исходного массива чисел. Новый массив также состоит из восьми чисел, но его последние четыре компоненты, полуразности, имеют тенденцию уменьшаться, что хорошо для сжатия.

Повторим нашу процедуру применительно к четырем первым (крупным) компонентам нашего нового массива. Они преобразуются в два средних и в две полуразности. Остальные четыре компонента оставим без изменений. Следующая и последняя итерация нашего процесса преобразует первые две компоненты этого массива в одно среднее (которое, на самом деле, равно среднему значению всех 8 элементов исходного массива) и одну полуразность.

Рисунок 3.18. Илллюстрация работы одномерного вейвлет-преобразования.

В итоге получим массив чисел, который называется вейвлетным преобразованием Хаара исходного массива данных .

Одномерное вейвлетное преобразование Хаара легко переносится на двумерный случай. Стандартное разложение (рис. 3.19) начинается вычислением вейвлетных преобразований всех строк изображения. К каждой строке применяются все итерации процесса, до тех пора, пока самый левый элемент каждой строки не станет равен среднему значению чисел этой строки, а все остальные элементы будут равны взвешенным разностям. Получится образ, в первом столбце которого стоит среднее столбцов исходного образа. После этого стандартный алгоритм производит вейвлетное преобразование каждого столбца. В результате получится двумерный массив, в котором самый левый верхний угловой элемент равен среднему всего исходного массива. Остальные элементы верхней строки будут равны средним взвешенным разностям, ниже стоят разности средних, а все остальные пикселы преобразуются в соответствующие разности.

Пирамидальное разложение вычисляет вейвлетное преобразование, применяя итерации поочередно к строкам и столбцам. На первом шаге вычисляются полусуммы и полуразности для всех строк (только одна итерация, а не все вейвлетное преобразование). Это действие производит средние в левой половине матрицы и полуразности - в правой половине. На втором шаге вычисляются полусуммы и полуразности для всех столбцов получившейся матрицы.

Рисунок 3.19. Стандартное двумерное вейвлет-преобразование

Рисунок 3.20. Пирамидальное двумерное вейвлет-преобразование

Результатом двумерного вейвлет-преобразования является набор матриц, соответствующих различным спектральным составляющим исходного изображения. При этом в левом верхнем углу находится низкочастотная компонента LL4 (рис. 3.21), которая создавалась только на основе полусумм и является уменьшенной копией исходного изображения.

Рисунок 3.21. Составляющие двумерного вейвлет-преобразования

Остальные компоненты преобразования можно использовать для восстановления исходного изображения. При этом, высокочастотные компоненты хорошо поддаются сжатию с использованием алгоритмов RLE и Хаффмана. Следует также отметить, что при сжатии с потерей информации возможно также использовать квантование, а также прямое отбрасывание части компонент. Результатом таких операций является хорошая степень сжатия. На рис. 3.22 приведен пример кодирования изображения, использующего вейвлет-преобразование.

Следует отметить, что двумерное вейвлет-преобразование требует значительных вычислительных ресурсов при реализации обычными программными методами. Однако, алгоритм вейвлет-преобразования состоит из большого количества простых преобразований, которые хорошо поддаются распараллеливанию. В результате, это преобразование хорошо выполняется аппаратно при использовании специализированной элементной базы.

Рисунок 3.22 . Пример вейвлет-преобразования изображения.

Вейвлет-преобразование используется в стандарте сжатия изображений JPEG2000, а также предусмотрено в качестве инструмента в формате MPEG-4.