Что такое мощность алфавита в информатике определение

Что такое мощность алфавита в информатике определение

В век развития компьютерных технологий, информатики, систем исчисления и многого другого все перечисленные определения имеют немалое влияние на жизнь человека. Большее количество пользователей не слишком полно разбираются в информатике, поэтому проясним, что означает понятие мощность алфавита, как ее вычислить и применить.

Что это такое?

Понятие «мощность алфавита» лежит в основе изучения информатики. Многочисленный набор символов принято называть — алфавит. Сумма всех символов выбранного языка называется мощностью. Следует вывод: мощность алфавита — это количество символов, которое используется в выбранном языке. Весь перечень используемых значков может содержать числа, различного характера скобки, специальные символы, запятые, двоеточия, точки, пробел и т.д.

Все же обобщенное понятие в информатике не учитывает расчеты информационной величины сообщения, которое содержит знаки препинания, числа и другое. Здесь необходим другой метод. Суть в том, что отдельная литера, цифра или скобка содержит собственный информационный объем данных. По этому информационному коду мозг компьютера опознает, что было напечатано. Машина разбирает введенные данные только в двоичном коде в виде единицы и нуля, в этом и заключается суть компьютерной науки.

В результате выходит, что любой символ можно закодировать путем различной расстановки нулей и единиц. Наименьшая последовательность, которая обозначает какую-либо букву или цифру, содержит всего два элемента. Информационный вес одного символа принято представлять в виде стандартной информационной единицы измерения, наименование которой «бит». Восемь битов равны одному байту.

Для определения количество информации, содержащейся в сообщении используют формулу Хартли: N=2 i .

Формула предназначена для расчета мощности используемого языка, которая обозначается буквой N (информационный вес, или объем), i – количество бит (в единице слова. Т.е. вес символа).

Формулировка теории о количестве информации в набранной фразе: I=K*i. Здесь К – это количество символов в сообщении, I- информационная масса значка.

Количество символов входящих в русский алфавит — 33 буквы. Выходит, что мощность взятого языка N=33. Английский язык содержит 26 букв и его мощность — 26. Но есть и клавиатурный язык, состоящий из букв русского языка и дополнительных знаков: 33 буквы, 10 чисел, 11 знаков препинания, скобки и пробел = 57.

Как определить объем информации в тексте?

Обычно всегда при наборе текста можно использовать жирные, заглавные, и буквы с курсивом, знаки препинания, разнообразные скобы, операции вычисления и т.д. По расчетам получается, что мощность компьютерного алфавита — это 256 символов и вариантов. Следуя формуле Хартли, N=256, тогда масса каждого значка (i) в клавиатурном алфавите равна восьми битам, то есть один байт.

Размер напечатанной фразы нужно вычислять по формуле: V=K⋅log2N, N — это численность символов в алфавите, а количество знаков в напечатанной фразе – K. Например, дан любой текст, который уместился на 30 страницах. На каждой из них расположено по 55 строчек, в них по 65 символов. Получается, что на странице будет 50 х 65= 3 575 байт информации.

Читайте также:  Отзывы о приборе дарсонваль

Примеры расчета мощности и объема

Сколько символов можно закодировать 3 битами?

1 символ равен 8 битам, поэтому закодировать целые символы не получится. Можно провести кодировку трехбитовых комбинаций. Тогда расчет необходимо производить по формуле Хартли: N=2 i , где i=3. 2 3 =8

Приняв информационный вес символа за байт, требуется рассчитать объем информации напечатанного сообщения:

«Белеет парус одинокий

В тумане моря голубом»

В приведенных двух строчках насчитывается 43 инициала (пробелы считаются, но скобки не учитываются), тогда информационный объем вычисляется по формуле, которая приведен ниже:

2. Что такое мощность алфавита?

З. Как отределяется информационный объем текста при использовании алфавитного подхода?

4. Текст составлен с использованием алфавита мощностью 64 символа и содержит 100 символов. Каков информационный объем текста?

5. Что такое байт, килобайт, мегабайт, гигабайт?

6. Информационный объем текста, подготовленного с помощью компьютера, равен 3,5 Кб. Сколько символов содержит этот текст?

7. Два текста содержат одинаковое количество символов. Первый текст составлен в алфавите мощностью 32 символа, второй мощностью 64 символа. Во сколько раз различаются информационные объемы этих текстов?

Алфавитом в информатике называется система знаков, с помощью которой можно подать информационное сообщение. Чтобы понять сущность этого определения, приведем немного дополнительных теоретических фактов:

  1. Любые сообщения состоят из алфавита. Например, данная статья — сообщение. Тогда она состоит из символов русского алфавита.
  2. Под символом мы можем понимать минимально значимую частицу алфавита. Также неделимые частицы называют атомами. Символами в русском алфавите являются "а", затем "б", "в", и так далее.
  3. В теории, алфавиту необязательно быть закодированным как-либо. Например, в печатной книге символы алфавита означают сами себя, значит, не имеют какой-либо кодировки.

Но на практике мы имеем следующее: компьютер не понимает, что такое буквы. Поэтому для передачи информационного сообщения его сначала нужно закодировать понятным компьютеру языком. Для того чтобы двигаться дальше, необходимо ввести дополнительные термины.

Что такое мощность алфавита

Под мощностью алфавита мы подразумеваем общее количество символов в нем. Для того чтобы узнать, какова мощность алфавита, необходимо просто посчитать количество символов в нем. Давайте разбираться. Для русского алфавита мощность алфавита равна 33 или же 32 символам, если не использовать "ё".

Давайте предположим, что все символы в нашем алфавите встречаются с равной вероятностью. Это предположение можно понимать так: допустим, у нас есть мешок с подписанными кубиками. Число кубиков в нем бесконечно, и каждый подписан лишь одним символом. Тогда при равномерном распределении, сколько бы мы кубиков ни доставали из мешка, количество кубиков с разными символами будет одинаково, или будет стремиться к этому при росте числа кубиков, которые мы достаем из мешка.

Читайте также:  Как настроить гугл плей на мейзу

Оценка веса информационных сообщений

Почти сто лет назад американский инженер Ральф Хартли вывел формулу, с помощью которой можно оценивать количество информации в сообщении. Его формула работает для равновероятных событий и выглядит так:

Где "i" — количество неделимых информационных атомов (битов) в сообщении, "M" — мощность алфавита. Следуем далее. С помощью математических преобразований можем определить, что мощность алфавита можно вычислять так:

Эта формула в общем виде задает связь между количеством равновероятных событий "M" и количеством информации "i".

Рассчитываем мощность

Скорее всего, вам уже известно из школьного курса информатики, что в современных вычислительных системах, построенных на архитектуре фон Неймана, используется двоичная система кодировки информации. Так кодируются как программы, так и данные.

Для того чтобы представить текст в вычислительной системе, используют равномерный код из восьми разрядов. Равномерным код считается потому, что содержит фиксированный набор элементов — 0 и 1. Значения в таком коде задаются определенным порядком этих элементов. С помощью восьмиразрядного кода мы можем закодировать сообщения весом 256 бит, ведь по формуле Хартли: M8=2 8 = 256 бит информации.

Такая ситуация с кодировкой символов двоичным кодом сложилась исторически. Но теоретически мы могли бы использовать и другие алфавиты для представления данных. Так, к примеру, в четырехзнаковом алфавите у каждого символа был бы вес не один, а два бита, в восьмизнаковом — 3 бита и так далее. Это рассчитывается с помощью двоичного логарифма, который был приведен выше (i = log2M).

Так как в алфавите мощностью 256 бит для обозначения одного символа отводится восемь двоичных разрядов, было решено ввести дополнительную меру информации — байт. Один байт содержит один символ кодовой таблицы ASCII и содержит в себе восемь бит.

Как измеряют информацию

Восьмибитная кодировка текстовых сообщений, которая используется в кодовой таблице ASCII, позволяет вместить базовый набор символов латиницы и кириллицы в прописном и строчном варианте, цифры, символы знаков препинания и другие базовые символы.

Для того чтобы измерять более крупные объемы данных, используют специальные приставки к словам байт и бит. Такие приставки приведены в таблице ниже:

Многие люди, изучавшие физику возразят, что рационально было бы использовать классические приставки для обозначения единиц информации (вроде кило- и мега-), но на самом деле это не совсем корректно, ведь такие префиксы к величинам обозначают умножение на ту или иную степень числа десять, когда в информатике везде используется двоичная система измерений.

Читайте также:  Игры похожие на just cause

Правильные названия единиц измерения данных

Для того чтобы устранить некорректности и неудобства, в марте 1999 года Международной комиссией в области электротехники были утверждены новые приставки к единицам, которые используются для определения объема информации в электронной вычислительной технике. Такими приставками стали "меби", "киби", "гиби", "теби", "эксби", "пети". Пока эти единицы еще не прижились, так что, скорее всего, необходимо время для введения этого стандарта и начала широкого применения. Как осуществлять переход от классических единиц к новоутвержденным, вы можете определить по следующей таблице:

Предположим, что мы имеем текст, который содержит K символов. Тогда, используя алфавитный подход, можно вычислить объем информации V, который в нем содержится. Он будет равен произведению мощности алфавита на информационный вес одного символа в нем.

По формуле Хартли мы знаем, как вычислить объем информации через двоичный логарифм. Предположив, что количество знаков алфавита равно N и количество знаков в записи информационного сообщения равняется K, получим такую формулу для вычисления информационного объема сообщения:

Алфавитный подход свидетельствует о том, что информационный объем будет зависеть только лишь от мощности алфавита и размера сообщений (то есть количества символов в нем), но никак не будет связан со смысловым содержанием для человека.

Примеры расчета мощности

На уроках информатики часто дают задачи на нахождение мощности алфавита, длины сообщения или информационного объема. Вот одна из таких задач:

"Текстовый файл занимает 11 Кбайт дискового пространства и содержит 11264 символа. Определите мощность алфавита данного текстового файла".

Каким будет решение, можно увидеть на картинке ниже.

Таким образом, алфавит мощностью 256 символов несет в себе всего лишь 8 бит информации, что в информатике называют одним байтом. Байт описывает 1 символ таблицы ASCII, что, если задуматься, совсем не много.

Один байт — это много или мало?

Современные хранилища данных вроде дата-центров Google и Facebook содержат не меньше, чем десятки петабайт информации. Точное количество данных, впрочем, трудно будет подсчитать даже им самим, ведь тогда нужно будет остановить все процессы на серверах и закрыть пользователям доступ к записи и редактированию их личной информации.

Но чтобы вообразить такие немыслимые объемы данных, необходимо четко понимать, что все складывается из маленьких деталей. Необходимо понимать, чему равна мощность алфавита (256) и сколько бит содержит 1 байт информации (как вы помните, 8).

Ссылка на основную публикацию
Что дает geforce experience
The server encountered an internal error or misconfiguration and was unable to complete your request. Please contact the server administrator...
Форге оф импаерс великие строения
Другое название: Кузница Империй Ниже мы приводим подробный гайд по игре Forge of Empires с советами как вам быстрее отстроить...
Форза хорайзен 3 список машин
Серия игр Forza всегда поражала количеством доступных автомобилей. На момент выхода игры доступно уже более 150 автомобилей, а разработчики обещают...
Что дает перепрошивка смартфона
К моему большому сожалению, такой огромный пласт гик-культуры, как прошивка смартфонов, очень мало обозревается на IT-сайтах. Но бьюсь об заклад,...
Adblock detector