이번 포스팅에서는 컴퓨터에서 문자를 표현하는 방법에 대해 알아보겠습니다.
컴퓨터에서 문자를 저장하는 방법
컴퓨터에서는 숫자만 저장할 수 있기 때문에 문자 'A' 를 숫자로 변환하여 저장합니다. 영어 알파벳을 예로들면, a~Z까지 52개가 존재하는데 이는 6비트를 조합하면(64개) 모두 표현이 가능합니다. 000001 = 'a' 라고 규칙을 정해놓는 셈입니다.
하지만 전세계적으로 네트워크가 발달하여 각 나라에서 사용하는 코드체계가 달라 서로 소통하기가 어렵고 6비트만으로는 전세계의 언어를 표현할 수가 없었습니다. 예를 들어 미국에서 000001 = 'a' 이지만 한국에서는 000001이 = 'ㄱ' 으로 사용했었다면 같은 비트더라도 해석하는 방법이 다르기 때문에 어려움이 있었습니다.
이러한 문제를 해결하기위한 코드체계 표준안을 만들게 되었습니다.
ASCII (American Standard Code For Information Interchange)
확장 아스키
유니코드
유니코드는 다시 Character-Set에 따라 UCS-2(Universal Character Set 2), UCS-4(Universal Character Set 4)로 구분됩니다. 이는 유니코드를 저장하는 변수의 크기를 정의하는데 문자(파일)을 인식할 때 UCS-2인지, UCS-4인지 구분해서 구현해야 하는 문제가 생겼습니다. 이러한 문제를 해결하기위해 변수 크기에 따라 표준안을 만들게 되었습니다.
유니코드 인코딩
'CS > 개발지식' 카테고리의 다른 글
base64 인코딩/디코딩 원리 (0) | 2017.04.04 |
---|---|
OOP (0) | 2017.03.21 |
프로세스와 쓰레드의 차이점 (0) | 2017.03.20 |
Runnable 과Thread의 차이 (0) | 2017.03.19 |