'멀티바이트' 태그의 글 목록

멀티바이트

[C++] 유니코드환경에서 달라지는 주요 함수 2019.11.05
[C++] 문자열 형식(유니코드, 멀티바이트)의 분류와 차이 2019.01.12

[C++] 유니코드환경에서 달라지는 주요 함수

Lunik 2019. 11. 5. 13:25

2019. 11. 5. 13:25

윈도우 환경의 C++ 프로그래밍을 하다 보면 멀티바이트, 유니코드라는 문자집합 때문에 고민하게 된다.

프로젝트를 생성하게 되면 기본적으로 유니코드 환경으로 설정되어 있으나, 과거 하위버전의 Visual Studio에서 작성한 프로젝트이거나, 기타사유로 멀티바이트로 변경한 프로젝트를 다시 유니코드 환경으로 설정하면 당연히 컴파일 오류가 발생한다.

구분	유니코드(_UNICODE)	멀티바이트(_MBCS)
기본 자료형	wchar_t	char
단일 문자의 크기	2Byte (16bit)	1Byte ~ 2Byte (영문, 숫자를 포함한 ASCII는 1바이트로 표현되고 나머지 한글, 한자, 일본 가나 등은 2바이트로 표현)
포함하는 문자셋	와이드 문자 및 u t f-16으로 인코딩된 문자열	유니코드를 제외한 문자셋 (ANSI, UTF-8 등)

기존 멀티바이트 환경에서는 문자열을 입력할 때 큰따옴표(" ") 안에 정의했지만, 유니코드 환경에서는 큰따옴표 앞에 대문자 L을 넣어줘야한다.

TCHAR에서 제공하는 통합형 매크로는 TEXT나 _T를 큰따옴표 앞에 넣어주면 된다.

예시
멀티바이트 환경에서 문자열 정의:
char chTest[50] = "ABCDEFG";

유니크도 환경에서 문자열 정의:
wchar_t wchTest[50] = L"ABCDEFG";

TCHAR 통합형 매크로:
TCHAR tchTest[50] = TEXT("ABCDEFG"); //또는 _T("ABCDEFG");

#ifdef _UNICODE
typedef WCHAR TCHAR;
#else
typedef char TCHAR;
#endif

위 코드에서 보면 _UNICODE가 정의되었냐에 따라 새로 정의된 자료형 이름이 둘다 TCHAR인것을 확인 할 수 있는데,

이것은 유니코드, 멀티바이트 모두 TCHAR를 사용할 수 있으며, 각 정의에 따라 자동으로 WCHAR와 char로 매크로가 된다는 의미이다.

따라서 TCHAR 매크로를 쓰게되면 유니크도, 멀티바이트 환경을 개발자가 고민할 필요가 없다는 것이다.

프로젝트 설정에 따라 내부적으로 매크로가 되니깐.

뿐만아니라 문자열 함수(strcpy 등)도 정의에 따라 나눠지게 된다. (자세한 내용은 tchar.h 파일에서 확인하면 된다. 너무 많아서 ㅠㅠ)

대표적인 함수 몇개를 정리해보았다.

기본적인 문자열 관련 함수

함수 설명	_MBCS(멀티바이트) (_UNICODE 정의안됨)	_UNICODE(유니코드) 정의됨	TCHAR 통합형(권장)
문자열 복사	strcpy_s	wcscpy_s	_tcscpy_s
문자열 복사 (길이 지정)	strncpy_s	_mbsnbcpy_s	_tcsncpy_s
문자열 서식	sprintf_s sprintf	swprintf_s swprintf	_stprintf_s _stprintf
문자열 비교	strcmp	wcscmp	_tcscmp
문자열 길이	strlen	wcslen	_tcslen
문자열 추가	strcat_s strcat	wcscat_s wcscat	_tcscat_s _tcscat
문자 검색	strchr	wcschr	_tcschr
문자열 검색	strstr	wcsstr	_tcsstr
문자열 스트림 입력	scanf_s	wscanf_s	_tscanf_s

문자열을 정수 또는 실수형으로 변환

함수 설명	_MBCS(멀티바이트) (_UNICODE 정의안됨)	_UNICODE(유니코드) 정의됨	TCHAR 통합형(권장)
문자열 정수(int) 변환	atoi	_wtoi	_ttoi
문자열 정수(long) 변환	atol	_wtol	_ttol
문자열 정수(long long) 변환	atoll	_wtoll	_ttoll
문자열 실수(double) 변환	atof	_wtof	_ttof

파일입출력 관련

함수 설명	_MBCS(멀티바이트) (_UNICODE 정의안됨)	_UNICODE(유니코드) 정의됨	TCHAR 통합형(권장)
파일 열기	fopen_s	_wfopen_s	_tfopen_s
파일 쓰기(스트림 출력)	fprintf_s	fwprintf_s	_ftprintf_s
스트림에서 문자열 읽기	fgets	fgetws	_fgetts

저작자표시 비영리 동일조건 (새창열림)

'Programming' 카테고리의 다른 글

영문 윈도우에서 VisualStudio 한글이 깨질때 해결방법 (0)	2019.12.17
[C++] LNK2019 _GetAdaptersInfo@8 Error 관련 (0)	2019.12.12
[Visual Studio] 정규식으로 찾기 및 바꾸기 (0)	2019.11.04
[C++/MFC] 쓰레드에서 UI에 접근하는 가장 안전한 방법 (0)	2019.08.20
[VS2015] Visual Studio 2015 Setup Project Unrecoverable build error 발생시 (0)	2019.06.24

[C++] 문자열 형식(유니코드, 멀티바이트)의 분류와 차이

Lunik 2019. 1. 12. 13:14

2019. 1. 12. 13:14

ANSI

미국 국립 표준 협회(American National Standards Institute, ANSI)

미국의 산업 표준을 제정하는 민간단체.

ANSI에서 제정된 표준을 ANSI라고 부르기도 한다.

ANSI가 제정한 표준 중 가장 유명한 것이 ASCII 코드이다.

ASCII 코드 ( 아스키 코드 )

ASCII (American Standard Code for Information Interchange, 미국 정보 교환 표준 부호)

ANSI가 제정한 표준 중 가장 유명한 것이 ASCII 코드이다.

미국에서 표준화한 정보교환용 7비트 부호체계.

000(0x00)부터 127(0x7F)까지 총 128개의 부호가 사용된다.

영문 키보드로 입력할 수 있는 모든 기호들이 할당되어 있는 부호 체계.

장점 : 매우 단순하고 간단하기 때문에 어느 시스템에서도 적용가능하다는 장점

단점 : 2바이트 이상의 코드를 표현할 수 없다. (예 - 한글, 일어)

아스키코드는 모든 문자 크기가 1byte. 영어 외에 표현 어려움.

문자집합 크게 2가지

1. 멀티바이트 문자 집합

2. 유니코드 문자 집합

1. 멀티바이트 문자 집합

아스키코드 ( 1 byte ) + 다른 문자 ( 2 byte ) 등을 포함한 문자 집합

한 문자 크기가 2 byte이기도 하고 그 이상이기도 하다. ( 영어로 사용될 땐 1바이트 )

문자마다 그때그때 달라요~

특정 문자 집합마다 코드 페이지가 존재한다.

같은 코드번호를 한글 코드 페이지로 해석하면 한글이 나오지만, 일어로 해석하면 일어가 나온다.

이상하게 깨지는 문자들은 멀티바이트 문자 집합이다!

2. 유니코드 문자 집합

아스키 코드 문자를 포함한 거의 모든 문자를 표현

한 문자 크기 2 byte 할당

각각 의 특정 문자는 고유의 유니코드 값을 가진다.

문자열 처리하는 기본 자료형

char, wchar, TCHAR

	char	wchar	TCHAR
문자 크기	1 byte	2 byte	설정에 따라 컴파일 시에 char 이기도 하고 wchar 이기도 하다.
타입	ASCII	UNOCODE	프로젝트 디버깅 설정에 따라 char (ASCII) 인지, wchar (UNICODE) 인지 결정된다.

음 표가 가운데로 안와....ㅋㅋㅋ

wchar_t

음, 근데 난 wchar_t 찾는중이었다. 더 정리해 봅시다!

참고하는 중 : http://sonhy1.tistory.com/112

댓글이 굿

1 人 : wchar_t 데이터타입은 명백히 UTF-16 으로 인코딩되는 문자열을 다룰때 사용됩니다.

2 人 : whar_t를 C/C++ 표준 상에는 어떻게 다룰지 정해져 있지 않습니다.

심지어, 최소 단위가 8bit 입니다.

이를 어떻게 다룰지는 compiler-specific 입니다. (컴파일러마다 다름!)

즉, wchar_t가 UTF-16으로 정의된건, MSVC에서만입니다.

wchar_t는 C 표준에 존재하며, (당연히 MS에서 만든게 아닙니다) 이를 MS에서는 UTF-16 형식을 담는 unsigned short로 구현하고 있을 뿐입니다.

-> 보다보니, utf-8 16 32 , UCS-2 어쩌구저쩌꾸하는데 눈이 @@ 팽글팽글 ㅋㅋㅋ

utf-8 과 utf-16 비교

참고하는 중 : http://pickykang.tistory.com/13

UTF-8과 UTF-16은 Unicode를 표현하는 Encoding 방식이다.

UTF-8과 UTF-16의 기본 차이는 문자 하나를 표현할 때 사용할 최소 byte를 의미한다고 볼 수 있다.

UTF-8로 문자를 표현할 때 1~4bytes만큼 필요하다.

UTF-16은 2bytes(16bit), 4bytes 만큼 필요하다.

두 Encoding 방식의 큰 차이는 최소 8bit가 필요하다 16bit가 필요하냐에 따라 다른 것이다.

최적의 상황(저쟝, 통신 용량을 아껴야할 때)이 필요하다면, 어떤 CodePoint를 주로 사용하냐에 따라 UTF-8 또는 UTF-16을 선택하는 기준이 달라질 것이다.

참조 :

http://klkl0.tistory.com/87

https://namu.wiki/w/ANSI

https://namu.wiki/w/%EC%95%84%EC%8A%A4%ED%82%A4%20%EC%BD%94%EB%93%9C?from=ASCII

http://blog.naver.com/wondo21c/30043174174

출처: http://juheel.tistory.com/7 [JDevelop]

저작자표시 비영리 변경금지 (새창열림)

'Programming' 카테고리의 다른 글

[C++] 로또 번호 생성 코드 (rand, list) (0)	2019.03.29
[C++] muparser 이용 평문 수식 계산하기 (0)	2019.03.25
[C#] 디렉토리 내 모든 파일 검색(Directory.GetFiles()) (0)	2019.01.04
[Image Processing] Tolerance, Threshold 정리 (0)	2019.01.02
VS 정의피킹(Peek Definition, Alt+F12) 안될 때 (2)	2019.01.02

PREV 이전 1 NEXT 다음

Lunikism