Почетна » како да » Шта су кодирање знакова Као АНСИ и Уницоде, и како се разликују?

    Шта су кодирање знакова Као АНСИ и Уницоде, и како се разликују?

    АСЦИИ, УТФ-8, ИСО-8859… Можда сте видели ове чудне надимке како плутају около, али шта они заправо значе? Прочитајте како објашњавамо шта је кодирање знакова и како се ови акроними односе на обични текст који видимо на екрану.

    Темељни грађевински блокови

    Када говоримо о писаном језику, говоримо о словима која су грађевни блокови речи, који затим граде реченице, пасусе и тако даље. Слова су симболи који представљају звукове. Када говорите о језику, говорите о групама звукова који се удружују и формирају неку врсту значења. Сваки језички систем има сложен скуп правила и дефиниција које управљају тим значењем. Ако имате ријеч, то је бескорисно ако не знате из којег је језика и када га користите с другима који говоре тај језик.

    (Поређење Грантха, Тулу и Малаиалам скрипти, Слика са Википедије)

    У свету компјутера ми користимо термин "карактер". Карактер је врста апстрактног концепта, дефинисан специфичним параметрима, али је основна јединица значења. Латински 'А' није исти као грчки 'алфа' или арапски 'алиф' зато што они имају различите контексте - они су из различитих језика и имају нешто другачије изговоре - тако да можемо рећи да су то различити ликови. Визуелни приказ знака се назива “глиф”, а различити скупови знакова се називају фонтови. Групе знакова припадају "сету" или "репертоару".

    Када откуцате параграф и промените фонт, не мењате фонетске вредности слова, мењате како изгледају. То је само козметички (али не и неважан!). Неки језици, попут старог Египћана и Кинеза, имају идеограме; они представљају целокупне идеје уместо звукова, а њихова изговарања могу да варирају током времена и удаљености. Ако замените један знак другом, замењујете идеју. То је више него само мењање писама, мења идеограм.

    Кодирање карактера

    (Слика са Википедије)

    Када куцате нешто на тастатури или учитавате датотеку, како рачунар зна шта да прикаже? За то је кодирање знакова. Текст на рачунару није заправо слова, већ низ упарених алфанумеричких вредности. Кодирање знакова дјелује као кључ за које вриједности одговарају којим знаковима, слично како ортографија диктира који звукови одговарају којим словима. Морзеов код је нека врста кодирања знакова. Он објашњава како групе дугих и кратких јединица као што су звучни сигнали представљају знакове. У Морсеовој шифри, ликови су само енглеска слова, бројеви и пуни. Постоји много кодирања знакова на рачунару који се преводи у слова, бројеве, ознаке нагласка, интерпункцијске знакове, међународне симболе итд..

    Често се на ову тему користи термин “кодне странице”. Они су у суштини кодирање знакова које користе одређене компаније, често са малим модификацијама. На пример, кодна страница Виндовс 1252 (раније позната као АНСИ 1252) је модификована форма ИСО-8859-1. Углавном се користе као интерни систем за упућивање на стандардне и модификоване кодне знакове који су специфични за исте системе. Рано, кодирање знакова није било толико важно јер рачунари нису међусобно комуницирали. С обзиром да је интернет у порасту и да је умрежавање уобичајена појава, постало је све важније наше свакодневно живљење без да смо га уопште схватили..

    Многи различити типови

    (Слика са сарах сосиак)

    Постоји много различитих кодирања знакова, а за то постоји много разлога. Који код за знакове које одаберете зависи од ваших потреба. Ако комуницирате на руском, има смисла користити кодирање знакова које добро подржава ћирилицу. Ако комуницирате на корејском, онда ћете желети нешто што представља добро Хангул и Хања. Ако сте математичар, онда желите нешто што има све научне и математичке симболе, као и грчке и латинске знакове. Ако сте шаљивџија, можда бисте имали користи од преокренутог текста. А, ако желите да све те врсте докумената буду прегледане од стране неке особе, желите да кодирање које је прилично уобичајено и лако доступно.

    Погледајмо неке од најчешћих.

    (Извод из АСЦИИ табеле, Слика са асциитабле.цом)

    • АСЦИИ - Амерички стандардни код за размјену информација је један од старијих кодних знакова. Првобитно је осмишљен на основу телеграфских кодова и временом је еволуирао тако да укључује више симбола и неке сада застареле не-штампане контролне знакове. То је вероватно тако основно као што можете добити у смислу модерних система, пошто је ограничено на латиницу без акцентних знакова. Његово 7-битно кодирање дозвољава само 128 карактера, због чега постоји неколико незваничних варијанти које се користе широм света.
    • ИСО-8859 - Међународна организација за стандардизацију је најчешће коришћена група кодних знакова број 8859. Свако специфично кодирање означено је бројем, често префиксним описним називом, нпр. ИСО-8859-3 (Латин-3), ИСО-8859-6 (латински / арапски). То је надскуп од АСЦИИ, што значи да су прве 128 вредности кодирања исте као и АСЦИИ. Међутим, он је 8-битни и омогућава 256 знакова, тако да се од њега гради и укључује много шири распон карактера, при чему се свако специфично кодирање фокусира на другачији скуп критерија. Латин-1 је укључивао гомилу акцентних слова и симбола, али је касније замењен ревидираним сетом названим Латин-9 који садржи ажуриране знакове као што је симбол еура..

    (Извод из тибетанског скрипта, Уницоде в4, од уницоде.орг)

    • Уницоде - Овај стандард кодирања има за циљ универзалност. Тренутно садржи 93 скрипте организоване у неколико блокова, са много више у радовима. Уницоде функционише другачије него други скупови знакова, тако да се уместо директног кодирања за глиф, свака вредност усмерава даље до „кодне тачке“. , као што је веб прегледач. Ове кодне тачке се обично приказују на следећи начин: У + 0040 (што се преводи као '@'). Специфични кодови под Уницоде стандардом су УТФ-8 и УТФ-16. УТФ-8 покушава да омогући максималну компатибилност са АСЦИИ. То је 8-битни, али дозвољава све знакове преко механизма замене и више парова вредности по карактеру. УТФ-16 се претвара у савршену АСЦИИ компатибилност за потпуну 16-битну компатибилност са стандардом.
    • ИСО-10646 - Ово није стварно кодирање, већ скуп карактера Уницоде који је стандардизован од стране ИСО-а. То је углавном важно јер је то репертоар карактера који користи ХТМЛ. Неке од напреднијих функција које обезбеђује Уницоде које дозвољавају слагање и десно на лево поред скриптовања са лева на десно недостају. Ипак, ради веома добро за употребу на интернету јер омогућава употребу широког спектра скрипти и омогућава претраживачу да интерпретира глифове. То олакшава локализацију.

    Шта треба да користим кодирање?

    Па, АСЦИИ ради за већину говорника енглеског, али не за много друго. Чешће ћете видети ИСО-8859-1, који ради за већину западноевропских језика. Друге верзије ИСО-8859 раде за ћириличну, арапску, грчку или друге специфичне скрипте. Међутим, ако желите да прикажете више скрипти у истом документу или на истој веб страници, УТФ-8 омогућава много бољу компатибилност. Такође добро функционише за људе који користе правилне интерпункцијске знакове, математичке симболе или знакове који нису у облику манжете, као што су квадрати и поља за потврду.

    (Више језика у једном документу, снимак екрана програма гујаратсамацхар.цом)

    Међутим, постоје недостаци сваког сета. АСЦИИ је ограничен у својим интерпункцијским знаковима, тако да не ради невероватно добро за типографски исправна уређивања. Јеси ли икада укуцао цопи / пасте само из Ворда да би имао неку чудну комбинацију глифа? То је недостатак ИСО-8859, или боље речено, његова наводна интер-операбилност са кодовима специфичним за ОС (ми гледамо на вас, Мицрософт!). Главни недостатак УТФ-8 је недостатак одговарајуће подршке при уређивању и објављивању апликација. Још један проблем је што претраживачи често не интерпретирају и само приказују ознаку бајтова реда УТФ-8 кодираног карактера. То резултира приказивањем нежељених знакова. И наравно, проглашавање једног шифрирања и употреба знакова од других без њиховог исправног навођења на веб страници отежава прегледачима да их исправно прикажу и да их претраживачи правилно индексирају.

    За ваше властите документе, рукописе и тако даље, можете користити све што вам је потребно да обавите посао. Што се тиче веба, чини се да се већина људи слаже око употребе УТФ-8 верзије која не користи ознаку бајтова, али то није потпуно једногласно. Као што можете видети, свако кодирање карактера има сопствену употребу, контекст и предности и слабости. Као крајњи корисник, вероватно нећете морати да се бавите овим, али сада можете да направите додатни корак напред ако тако одлучите.