code character encoding

"코드 문자 인코딩"의 두 판 사이의 차이

나루 위키
둘러보기로 가기 검색하러 가기
(새 문서: 나루 '''코드'''는 최초 1024바이트로부터 '''문자 인코딩'''이 결정되어 유니코드 스칼라 값의 열로 변환된다. {| class=wikitable ! 시작 바...)
 
잔글 (영문 표기 추가)
 
(같은 사용자의 중간 판 하나는 보이지 않습니다)
1번째 줄: 1번째 줄:
나루 '''코드'''는 최초 1024[[바이트]]로부터 '''문자 인코딩'''이 결정되어 [[유니코드 스칼라 값]]의 열로 변환된다.
+
나루 '''코드'''는 [[시작 바이트열]]로부터 '''문자 인코딩'''{{tr|en=code character encoding}}이 결정되어 [[유니코드 스칼라 값]]의 열로 변환된다.
  
 
{| class=wikitable
 
{| class=wikitable
! 시작 바이트 패턴 !! 인코딩
+
! 시작 바이트열 패턴 !! 인코딩
 
|-
 
|-
 
| <code>FE FF ...</code> || UTF-16BE
 
| <code>FE FF ...</code> || UTF-16BE
13번째 줄: 13번째 줄:
 
해당 문자 인코딩에서 잘못된 바이트열(UTF-16BE <code>D8 00</code>이나, UTF-8 <code>F4 90 80 80</code> 같은)은 [[치명적인 오류]]이다.
 
해당 문자 인코딩에서 잘못된 바이트열(UTF-16BE <code>D8 00</code>이나, UTF-8 <code>F4 90 80 80</code> 같은)은 [[치명적인 오류]]이다.
  
시작 바이트 패턴은 무시되지 않고 해당 문자 인코딩으로 그대로 읽힌다. 그 결과로 나타나는 U+FEFF ZERO WIDTH NO-BREAK SPACE, 통칭 바이트 순서 마크(BOM)는 [[가로 공백 문자]]이므로 해석에 영향을 미치지 않는다.
+
시작 바이트열은 무시되지 않고 해당 문자 인코딩으로 그대로 읽힌다. 그 결과로 나타나는 U+FEFF ZERO WIDTH NO-BREAK SPACE, 통칭 바이트 순서 마크(BOM)는 [[가로 공백 문자]]이므로 해석에 영향을 미치지 않는다.
  
 
[[분류:토큰화]]
 
[[분류:토큰화]]

2019년 7월 26일 (금) 03:29 기준 최신판

나루 코드시작 바이트열로부터 문자 인코딩이 결정되어 유니코드 스칼라 값의 열로 변환된다.

시작 바이트열 패턴 인코딩
FE FF ... UTF-16BE
FF FE ... UTF-16LE
기타 UTF-8 (RFC 3629)

해당 문자 인코딩에서 잘못된 바이트열(UTF-16BE D8 00이나, UTF-8 F4 90 80 80 같은)은 치명적인 오류이다.

시작 바이트열은 무시되지 않고 해당 문자 인코딩으로 그대로 읽힌다. 그 결과로 나타나는 U+FEFF ZERO WIDTH NO-BREAK SPACE, 통칭 바이트 순서 마크(BOM)는 가로 공백 문자이므로 해석에 영향을 미치지 않는다.