Клавиатура, Utf-8

From Ilianko
Revision as of 16:55, 25 March 2015 by Anko (talk | contribs)

Клавиатурна подредба (keyboard layout)

QWERTY

Клавиатурна подредба (keyboard layout) на компютърната клавиатура е разположението на символите отговарящи на всеки един от бутоните. Тя е заимствана от подредбата на клавишите на ръчните пишещи машини. Затова най-често използваната клавиатурна подредба е базирана на подредбата QWERTY (Кю-ЕР-ТИ), която е типична за повечето англоезични машинописни клавиатури. Почти всички езици имат собствен стандарт за подредба на бутоните. Например в немската клавиатура мястото на буквите Z и Y e разменено и съществуват още два символа Ö и Ü. В България се използват QWERTY клавиатури, като на същите клавиши с друг цвят са нанесени буквите от кирилицата и други символи от подредбата по БДС. В практиката много често се използва и така наречената фонетична подредба, при която има звуково съответствие на почти всички букви от кирилицата и латиницата, като се основава на подредбата QWERTY. В момента съществуват два вида фонетични подредби – официална, разработена от БАН и „оригинална/ традиционна” фонетична подредба.

Избор на клавиатурна подредба при Windows става от аплета за регионални и езикови настройки. При Linux с графична среда GNOME изборът на клавиатурна подредба се задава от аплета за настройки на клавиатурата.


Задача 1 Да се добави българска фонетична клавиатурна подредба.

Задача 2 Да се настрои клавишна комбинация ctrl+shift за сменя клавиатурните подредби

Кодиране на символите

https://www.youtube.com/watch?v=MijmeoH9LT4

Кодиране на символите e прилагане на система от кодове, която свързва всеки символ с някаква друга величина, например - естествено число или брой електрически импулси, с цел пренасянето му или съхраняването му в електронен вид. Примери за системи за кодиране са:

  • Морзовата азбука,
  • кодовете ASCII (1960 American Standard Code for Information Interchange)
  • Unicode.

Първоначално се използват 7 и 8-битови кодове.

000 0001 - Инструкции ( backspace, newline, ...)
010 0001 - Специални символи %, & ...
100 0001 - A
100 0010 - B ...
110 0001 - a
110 0010 - b

Windows-1251

1100 0000 - A
1100 0001 - Б

Поради ограничението за броя на символите, които могат да се опишат с 8 бита и различията в символите на различните езици се налага използването на голямо разнообразие от кодови таблици. Ако искаме да пишем на кирилица и латиница и с гръцки букви и латиница би трябвало да използваме различни кодови таблици. Например най-често ползваната кодова таблица стандартизирана от Windows при използване едновременно на латиница и кирилица е Windows-1251. В този случай кодовете на латиница са същите, като при ASCII кода, това се прави и при почти всички други кодирания, с цел обратна съвместимост с ASCII. Използването на различни кодирания създава големи трудности при разработка на мултиезични приложения. Това налага създаването на софтуерни модули за превеждане между различните кодирания. Уеб браузърите са най-показателния пример за проблемите при визуализация на текстове с различни кодови таблици. Ако не е указано правилно кое е използваното кодиране на символите, уеб страницата ще се изобразява със странни „маймунски” символи или въпросителни. В този случай от настройките за визуализация може ръчно да се зададе какво кодиране да се използва (View -> encoding).

utf

С цел премахване на неудобството от големия брой кодови таблици е разработен стандартът Unicode ( ISO 10646, Universal Character Set UCS) за представяне и обработка на текст от почти всички системи за писане. В момента Unicode включва повече от 100 хиляди символa.

UCS (Unicode) описва връзката между кода и символа, UTF-8 и UTF-16 са най-често използваните методи за програмна реализация на това кодиране. Utf-8 e с променлива дължина от 1 до 4 байта, a utf-16 е с дължина 2 байта. Всички модерните операционни системи поддържат UTF-8 и UTF-16 и е препоръчително да се използват при разработка на нови софтуерни приложения.

Предимства на utf-8:

  • обратна съвместимост с ASCII - латинските символи се съхраняват с 1 байт
  • запазва размера на стари текстове
  • не може да бъде изпратен код за край на стринг 0000 0000
  • бързо движение между символите (напред назад)
U-00000000 – U-0000007F:0xxxxxxx - ASCII символи
U-00000080 – U-000007FF:110xxxxx 10xxxxxx
U-00000800 – U-0000FFFF:1110xxxx 10xxxxxx 10xxxxxx
U-00010000 – U-001FFFFF:11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 – U-03FFFFFF:111110xx 10xxxxxx 10xxxxxx 10xxxxxx10xxxxxx
U-04000000 – U-7FFFFFFF:1111110x 10xxxxxx 10xxxxxx 10xxxxxx10xxxxxx 10xxxxxx

Задача 3. Да се създадат общо 6 html страници със следното съдържание:

<!DOCTYPE html>
<html>
  <head>
    *
  </head>
  <body>
  Текст на кирилица
  Text in Latin
  </body>
</html>

Като текста се запише с кодиране utf-8 и windows-1251 и * се замести с:

  1. празно поле
  2. <meta charset="UTF-8" />
  3. <meta charset=windows-1251 />

Разгледайте създадените файлове с web браузър. Настройте браузъра правилно да възпроизвежда файловете с неправилно задаване на енкодинга.

Набор от символи и колация (сравняване)

Набора от символи са самите символи и тяхното кодиране, а колацията е набор от правила за сравнение на символите. Например: Да предположим, че имаме азбука от четири символа 'A', 'Б', 'a', 'б'. Даваме на всяка буква номер 'A' = 0, 'Б' = 1, 'a' = 2, 'б' = 3. Буквата ‘А’ е символа, числото ‘0’ е кодът на символа. Комбинацията от всички четири букви и техните кодове се нарича кодиране на символите (encoding). Сега да предположим, че искаме да сравним стойностите на двата стринга, 'A' and 'Б'. Най-лесният начин да се направи това е да се провери кодът на символите: 0 за ‘А’ и 1 за ‘Б’. Поради това, че 0 е по-малко от 1, казваме ‘А’ е по-малко от ‘Б’. Това, което току що направихме е прилагане на колация върху нашия набор от символи. Колацията е набор от правила (в случая само едно правило) за сравнение на кодовете на символите. Гореспоменатото правило е най-простата от всички колации и се нарича бинарна колация (binary collation – бинарно сравняване). Но ако искаме да кажем, че малките и големите букви са еднозначни? Тогава имаме най-малко две правила:(1) разглеждане на малките букви ‘а’ и ‘б’ като еквивалентни на ‘А’ и ‘Б’; (2) сравняване на кодовете. Това се нарича „независимо от големината на буквата сравнение” ( case insensitive collation). Както видяхме в предходната подточка в реалния свят символите са много повече, а от тук и правилата за сравнение между тях също.

Задача 4. Да се разгледат настройките на колацията в MySQL

Други настройки.

AT – клавиатурите имат програмируеми настройки на повторенията при задържане и време на закъснение при задръжка. Времето на задръжка е от 0,25 до 1 секунда. Брой повторения при натиснат бутон е от 2 до 30 за секунда.


Данни от клавиатурата

#include <linux/input.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <stdio.h>
#include <unistd.h>

int main()
{
    int fd;
    struct input_event ev;

    fd = open("/dev/input/event3", O_RDONLY);
    if(fd < 0) {
        printf("error openning");
        return 1;
    }
    
    
    while (1)
    {
    read(fd, &ev, sizeof(struct input_event));

    if(ev.type == 1)
        printf("key %i state %i\n", ev.code, ev.value);

    }
}

Ползване Utf-8 в C и Linux

Задача 6.

  • Изпълнете програмата в терминал.
  • Изпълнете програмата като изтриете функцията setlocale().
  • Изпълнете командата locale в терминалния прозорец, за да видите регионалните настройки.
/*********************************************************************\
 * Title: Регионални настройки 
 * Кодиране на символите (Encoding), Формат на дата, час, валута ...
 * Author: ilianko
 * 
\*********************************************************************/

#include <stdio.h>
#include <locale.h>

int main()
{
   
  if (!setlocale(LC_CTYPE, "")) //Прочита регионални настройки записани на локалната машина
  {
    fprintf(stderr, "Can't set the specified locale!");
    return 1;
  }
  
  printf("%ls\n", L"sadsada абв  ளிலே தமிழ்மொழி போல் இனிதாவது எங்க Schöne Grüße");
  return 0;

}

Задача 7. Разучете действието на програмата и преминете към следващата задача.

/*********************************************************************\
 * Title: string bubble sort
 * Author: ilianko
 * 
\*********************************************************************/

#include <stdio.h>
#include <string.h>

#define BROI_DUMI 4
#define DYLZHINA_NA_DUMA 16 // max broj simvoli

int main ()
{
   
  char words[BROI_DUMI][DYLZHINA_NA_DUMA] = {"strawberry","orange","bananas","mango",};
  
  printf("Pyrwata duma e %s. \n\n", words[0]);
    
  //Сортиране на думи в азбучен ред
  int i,k;
  char temp[16];
  
  for(k=0; k<BROI_DUMI-1; k++)
  {
    for(i = BROI_DUMI-1; i > 0; i--)
    {
      if( strcmp(words[i],words[i-1]) < 0) //Азбучно сравнение на два стринга
      { //Смяна местата на думите
        strcpy ( temp, words[i]); //Копиране на 
        strcpy ( words[i], words[i-1]);
	strcpy ( words[i-1], temp);
      }
    }		  
  }
  //Извеждане на резултата
  for (i = 0 ; i < BROI_DUMI; i++) 
    printf("%s \n", words[i]);
    
  return 0;
}

Задача. 8 Преработете програмата по-горе да работи с wide characters.

Упътване: Използвайте първите два примера, тип данни wchar_t, библиотеката <wchar.h> и функциите wcscmp(); wcscpy(); Решение

Връзки

keyboard Scan Codes Demystified

UTF-8 Sampler

FAQ UTF-8, UTF-16, UTF-32 & BOM

UTF-8 and Unicode FAQ