Схема для определения русскоязычных кодировок интернет-страниц (+ наглядные схемы-пособия по распознаванию языков)

Ответить
Схема для определения русскоязычных кодировок интернет-страниц (+ наглядные схемы-пособия по распознаванию языков)

При путешествиях по русскоязычному интернету бывает так, что текст на страницах отображается какими-то непонятными значками (т.н. "кракозябрами") -- чтобы перевести его в читаемый вид, нужно правильно распознать кодировку, в которой он написан, и переключить её в обозревателе.

За источник информации была взята статья из вики. В блок-схеме «UTF-16 → CP 866» означает, что исходная кодировка была «UTF-16», а распозналась она как «CP 866».


Изображение
увеличить:
http://i5.pixs.ru/storage/1/1/9/gamejam ... 635119.png

http://habrahabr.ru/post/147843/


Европейские языки:

Языков больше, чем типов письменности. Поэтому диаграмка получилась большая. Отличать языки друг от друга будем в основном по особенным буквам, в частности, по буквам с диакритическими значками (диакритикой). Диакритика бывает над гласной (в букве й), над согласной (буква č) или может как-то сопровождать букву (как в букве ç; строго говоря это не дикритика вовсе, но мы здесь будем придерживаться такого жаргона). Наиболее известные (с моей точки зрения) значки в Европе — это умляут (он же диаерезис: ü), гачек (č) и акут (é).


(схема большая -- полмегабайта, поэтому под ссылкой)
http://i5.pixs.ru/storage/1/1/0/habrast ... 635110.png

http://habrahabr.ru/company/abbyy/blog/154951/


Языки с другими видами письменностей:

Изображение
увеличить:
http://i5.pixs.ru/storage/1/4/0/gamejam ... 635140.png

http://habrahabr.ru/post/147838/

« Технические идеи

tumblr hit counter