Змістовний і алфавітний підхід до вимірювання інформації
Розвиток комп`ютерної техніки в новому інформаційному столітті викликає безліч додаткових питань, відкриває нові можливості і знання. Але разом з цим і виникає безліч дилем, які необхідно вирішити. Так, наприклад, вивчаючи комп`ютерну техніку, важливо розуміти, як вона обробляє, запам`ятовує і передає файли, що таке кодування даних і в якому форматі здійснюється вимірювання інформації. Але головним предметом обговорення стає питання про те, які існують основні підходи до вимірювання інформації. Приклади і пояснення кожного аспекту будуть детально описані в даній статті.
Інформація в комп`ютерній науці
Щоб починати розбиратися в інформаційних підходах зберігання даних, перш необхідно дізнатися, що в комп`ютерній сфері представляє інформація і що вона показує. Адже якщо взяти інформатику як науку, то її основним об`єктом вивчення є саме інформація. Саме слово латинського походження і в перекладі на нашу мову означає "ознайомлення", "пояснення", "зведення". Кожна наука використовує різні визначення даного поняття. У комп`ютерній сфері це всі ті відомості про різні явища і об`єктах, що оточують нас, які зменшують міру невизначеності і ступінь нашого незнання про них. Але, щоб зберігати всі файли, дані, символьні знаки в електронній обчислювальній машині, необхідно знати алгоритм їх переведення в бінарний вигляд і існуючі одиниці виміру кількості даних. Алфавітний підхід до вимірювання інформації показує, як саме комп`ютерна машина перетворює символи в бінарний код нуликів і одиничок.
Кодування інформації електронною обчислювальною машиною
Комп`ютерна техніка здатна розпізнавати, обробляти, запам`ятовувати і передавати тільки інформаційні дані в двійковому коді. Але якщо це аудіозапис, текст, відео, графічне зображення, як машина здатна різні типи даних перетворювати в бінарний тип? І як вони в такому вигляді зберігаються в пам`яті? На ці питання відповіді можна знайти, якщо ви знаєте алфавітний підхід до визначення кількості інформації, змістовний аспект і технічну суть кодування.
Кодування інформації полягає в тому, щоб зашифрувати символи в бінарний код, що складається із знаків "0" і "1". Це технічно просто організувати. Сигнал є, якщо стоїть одиниця, нуль вказує на зворотне. Деякі задаються питанням про те, чому комп`ютер не може, як і людський мозок, зберігати складні числа, адже вони менше за розміром. Але електронної обчислювальної техніці легше оперувати величезним бінарним кодом, ніж зберігати в своїй пам`яті складні числа.
Системи обчислення в комп`ютерній сфері
Ми звикли вважати від 1 до 10, складати, віднімати, множити і робити різні операції над числами. Комп`ютер же здатний оперувати тільки двома числами. Але робить це за частки мілісекунд. Як комп`ютерної машиною проводиться кодування і декодування символів? Це досить простий алгоритм, який можна розглянути на прикладі. Алфавітний підхід до вимірювання інформації, одиниці виміру даних ми розглянемо трохи пізніше, після того, як стане зрозумілою суть кодування і декодування даних.
Існує безліч комп`ютерних програм, які наочно здійснюють переказ систем обчислення або текстового рядка в двійковий код і назад.
Ми ж здійснимо розрахунки вручну. Кодування інформації проводиться звичайним поділом на 2. Отже, припустимо, у нас є десяткове число 217. Нам необхідно перетворити його в двійковий код. Для цього ділимо його на число 2 до того моменту, поки в залишку не вийде нуль або одиниця.
- 217/2 = 108 із залишком 1. Окремо виписуємо залишки, саме вони і будуть створювати наш остаточну відповідь.
- 108/2 = 54. Тут залишком є число 0, так як 108 остачі ділиться. Не забуваємо позначати собі залишки. Адже якщо втратити хоч одну цифру, початкове число вже буде іншим.
- 54/2 = 27, залишок 0.
- 27/2 = 13, записуємо 1 в залишок. Наші числа із залишку створюють бінарний код, який необхідно зчитувати в зворотному порядку.
- 13/2 = 6. Тут одиниця в залишку, виписуємо її.
- 6/2 = 3 із залишком 0. У кінцевому відповіді цифр має бути на одну більше, ніж усіх дій, проведених вами.
- 3/2 = 1 із залишком 1. Записуємо залишок і число 1, яке є остаточним поділом.
Якщо оформляти відповідь, починаючи з цифри у першій дії, в результаті вийде 10011011, але це невірно. Бінарне число необхідно переписати в зворотному порядку. Ось остаточний результат перекладу числа: 11011001. Змістовний і алфавітний підхід до вимірювання інформації використовують дані саме такого формату для зберігання і передачі. Двійковий код записується в кодову таблицю і зберігається там, поки не знадобиться вивести його на екран монітора. Потім здійснюється переклад інформацією звичний для нас вигляд, званий декодуванням.
На картинці добре видно алгоритм перекладу з бінарного виду в десятковий код. Він здійснюється за простою формулою. Першу цифру коду множимо на 2 в ступені 0, додаємо до неї наступну цифру, помножену на 2 більшою мірою, і так далі. У результаті, як видно з картинки, отримуємо той же номер, що і початкове при кодуванні.
Алфавітний підхід до вимірювання інформації: суть, одиниці
Щоб виміряти обсяг даних в текстовій послідовності символів, необхідно використовувати існуючий підхід. Тут не важливо зміст тексту, головне - кількісне співвідношення знаків. Завдяки цьому аспекту вираховується величина текстового повідомлення, закодованого на комп`ютері. У відповідності з даним підходом кількісна величина тексту пропорційна числу знаків, введених з клавіатури. Завдяки цьому метод вимірювання інформаційного обсягу часто називають об`ємним. Символи можуть бути абсолютно різними за величиною. Зрозуміло, що такі цифри як 0 і 1 несуть 1 біт інформації, а літери, розділові знаки, пробіл - іншу вагу. Можна подивитися ASCII-таблицю, щоб дізнатися бінарний код того чи іншого знака. Щоб порахувати необхідний нам текстовий обсяг, потрібно скласти вага всіх знаків - складових частин всього тексту. Це і є алфавітний підхід до визначення кількості інформації.
У комп`ютерній науці існує безліч термінів, якими все частіше оперують в ужитку. Так, алфавіт в інформатиці означає набір всіх символів, включаючи дужки, пробіл, розділові знаки, символи кирилиці, латиниці, які є нічим іншим як текстової складовою частиною. Тут мають місце два визначення, за якими і розраховуватиметься дана величина.
1. Завдяки першим визначенням можна розрахувати зустрічальність знаків у текстовому повідомленні, коли їх ймовірність появи абсолютно різна. Так, можна сказати, що деякі букви в російських словах з`являються дуже рідко, наприклад, "ь" або «е».
2. Але в деяких випадках доцільніше вирахувати потрібну нам величину, представивши равновероятностних поява кожного символу. І тут буде використовуватися інша формула розрахунку.
У цьому і полягає алфавітний підхід до вимірювання інформації.
Равновероятностних зустрічальність знаків у текстовому файлі
Щоб пояснити дане визначення, необхідно допустити, що всі знаки в тексті або повідомленні з`являються з однаковою частотою. Щоб порахувати, який обсяг пам`яті вони займають в комп`ютері, необхідно зануритися в теорію ймовірності і простих логічних висновків.
Припустимо, на екрані монітора виведений текст. Перед нами стоїть завдання порахувати, який обсяг пам`яті комп`ютера він займає. Нехай текст складається з 100 символів. Виходить, що ймовірність появи однієї літери, символу або знака становитиме одну соту частину всього обсягу. Якщо почитати книгу з теорії ймовірності, можна знайти таку досить просту формулу, яка точно визначить числову величину шансу появи того чи іншого знака в будь-якій позиції тексту.
Напевно, доказ формул і теорем не всім буде цікаво, тому, враховуючи формули відомих учених, виводиться розрахункове вираз:
i = log2(1 / p) = log2N (біт) - 2i= N,
де i - це та величина, яку нам необхідно дізнатися, p - числове значення можливості виникнення знака в текстовій позиції, N в більшості випадків дорівнює 2, адже комп`ютерна машина кодує дані в бінарний код, що складається з двох величин.
Алфавітний об`ємний підхід до вимірювання інформації передбачає, що вага одного символьного знака дорівнює 1 біту - мінімальної одиниці виміру. За формулою можна визначити, чому дорівнює байт, кілобайт, мегабайт та ін.
Різна ймовірність народження символів у тексті
Якщо припускати, що знаки з`являються з різною частотою (відповідно, і в будь-якій позиції тексту їх ймовірність появи різна), тоді можна сказати, що їх інформаційний вага теж різний. Необхідно обчислювати за іншою формулою вимір інформації. Алфавітний підхід тим і універсальний, що припускає як рівну, так і різну можливість частоти народження знака в тексті. Ми не будемо зачіпати складну формулу розрахунку даної величини з урахуванням різної ймовірності зустрічальності символу. Необхідно розуміти, що такі літери, як "ь", "х", "ф", "ч", в російських словах зустрічаються набагато рідше. Тому виникає необхідність вважати частоту появи за іншою формулою. Провівши деякі розрахунки, вчені прийшли до висновку, що інформаційний вага рідко трапляються символів набагато більше, ніж вага букв, які часто зустрічаються. Щоб обчислити обсяг тексту, необхідно враховувати величину повторень кожного символу і його інформаційний вагу, а також розмір алфавіту.
Вимірювання інформації: тонкощі змістовного аспекту
Можна не враховувати алфавітний підхід до вимірювання інформації. Інформатика пропонує ще один аспект вимірювання даних - змістовний. Тут вже вирішується трохи інша задача. Припустимо, людина, що сидить за комп`ютером, отримує інформацію про явище або якомусь предметі. Наперед зрозуміло, що він не знає нічого, тому є якесь число можливих чи очікуваних варіантів. Після прочитання повідомлення невизначеність пропадає, залишається один варіант, величину якого і необхідно вирахувати. Звертаємося до допоміжної формулою. Величина буде обчислюватися в мінімальної одиниці - бітах. Як і алфавітний підхід до вимірювання кількості інформації, правильна формула буде вибрана з урахуванням 2-х можливих ситуацій: різною і рівної ймовірності зустрічальності подій.
Події, що зустрічаються з однаковою ймовірністю
Як і у випадку, коли застосовується об`єктивний алфавітний підхід до вимірювання інформації, шукана формула при змістовному підході розраховується з урахуванням вже відомої закономірності, яку вивів вчений Хартлі:
2i= N,
де i - це величина події, яку нам необхідно знайти, а N - число подій, зустрічався з равновероятностних частотою. Величина i вважається в мінімальної одиниці обчислення - бітах. Можна i виразити через логарифм.
Приклад розрахунку равновероятностних події
Припустимо, у нас на тарілці лежить 64 пельменя, в одному з яких захований сюрприз замість м`яса. Необхідно порахувати, скільки інформації містить подія, коли витягли саме цей пельмень з сюрпризом, тобто здійснити вимір інформації. Алфавітний підхід такий же простий, як і об`єктивний. У двох випадках використовувалася б одна і та ж формула для розрахунку кількісного обсягу інформаційних матеріалів. Підставляємо відому формулу величини: 2i= 64 = 26. Результат: i = 6 біт.
Вимірювання інформації з урахуванням різної ймовірності появи події
Припустимо, у нас є деяка подія з імовірністю появи p. Будемо вважати, що величина i, що розраховується в бітах, - це число, яке характеризує той факт, що подія відбулася. Виходячи з цього, можна стверджувати, що величини можна розрахувати за існуючою формулою: 2i= 1 / p.
Відмінності алфавітного та змістовного підходів до інформаційного вимірюванню
Чим об`ємний підхід відрізняється від змістовного? Адже формули розрахунку величин кількості інформації абсолютно одні й ті ж. Різниця в тому, що алфавітний аспект можна використовувати, якщо ви працюєте з текстами, а змістовний дозволяє вирішувати будь-які завдання теорії імовірності, вираховувати обсяг інформації нема кого події з урахуванням його ймовірної появи.
Висновки
Алфавітний підхід до вимірювання інформації так само, як і змістовний, дає можливість дізнатися, які одиниці вимірювання даних і який обсяг займатимуть текстові знаки або будь-які інші відомості. Ми можемо перевести будь-які текстові і числові файли, повідомлення в комп`ютерний код і назад, при цьому завжди знати, скільки пам`яті вони займатимуть в комп`ютерній обчислювальній машині.