Пусть у нас есть символ который может иметь n значений (равновероятных). Тогда количество информации которое он несет равно I = log{2}(n) бит пусть у нас есть слово состоящее из m символов, тогда для него: Число состояний = n^m I = log{2} (n^m) = m * log{2} (n) График зависимости числа необходимых бит от числа состояний Мера информации Хартли
В принципе мы можем считать не в битах, а используя любое другое основание: I = log{3}(n) трит и даже: I = ln(n) нит I = log{10}(n) дит 1 нит = 1.44269 бит 1 дит = 3.32193 бит - ее еще называют хартли
Клод Шенон: Энтропия Шенона
Знание (информация) - это уменьшение неопределености. Информационная энтропия расчитывается как:
где Pk - вероятность появления того или другово значения у символа. Пример график зависимости энтропии для бита с различной частотой появления 1 (от 0 до 1).
Понятно что: Энтропия равна 0, если вероятность символа равна 1 Символ с вероятностью 0 не влияет на энтропию Максимальная энтропия равная 1 достигается если все символы равновероятны (имеет место быть в случае абсолютно случайных данных). Что такое сжатие: Данные имеют информационную энтропию отличную от 1 Максимально возможное сжатие (без потерь) C = 1 - H(data) т.e если данные 100% предсказаны то C = 1 - 0 = 1 (100%) сжимать их не надо мы их и так знаем априорно
С другой стороны для абсолютно случайных данных (понятное дело бесконечной длинны) С = 1 - 1 = 0, то есть мы их никогда не сожмем.