code character encoding
"코드 문자 인코딩"의 두 판 사이의 차이
둘러보기로 가기
검색하러 가기
Lifthrasiir (토론 | 기여) (새 문서: 나루 '''코드'''는 최초 1024바이트로부터 '''문자 인코딩'''이 결정되어 유니코드 스칼라 값의 열로 변환된다. {| class=wikitable ! 시작 바...) |
Lifthrasiir (토론 | 기여) 잔글 (영문 표기 추가) |
||
(같은 사용자의 중간 판 하나는 보이지 않습니다) | |||
1번째 줄: | 1번째 줄: | ||
− | 나루 '''코드'''는 | + | 나루 '''코드'''는 [[시작 바이트열]]로부터 '''문자 인코딩'''{{tr|en=code character encoding}}이 결정되어 [[유니코드 스칼라 값]]의 열로 변환된다. |
{| class=wikitable | {| class=wikitable | ||
− | ! 시작 | + | ! 시작 바이트열 패턴 !! 인코딩 |
|- | |- | ||
| <code>FE FF ...</code> || UTF-16BE | | <code>FE FF ...</code> || UTF-16BE | ||
13번째 줄: | 13번째 줄: | ||
해당 문자 인코딩에서 잘못된 바이트열(UTF-16BE <code>D8 00</code>이나, UTF-8 <code>F4 90 80 80</code> 같은)은 [[치명적인 오류]]이다. | 해당 문자 인코딩에서 잘못된 바이트열(UTF-16BE <code>D8 00</code>이나, UTF-8 <code>F4 90 80 80</code> 같은)은 [[치명적인 오류]]이다. | ||
− | 시작 | + | 시작 바이트열은 무시되지 않고 해당 문자 인코딩으로 그대로 읽힌다. 그 결과로 나타나는 U+FEFF ZERO WIDTH NO-BREAK SPACE, 통칭 바이트 순서 마크(BOM)는 [[가로 공백 문자]]이므로 해석에 영향을 미치지 않는다. |
[[분류:토큰화]] | [[분류:토큰화]] |
2019년 7월 26일 (금) 03:29 기준 최신판
나루 코드는 시작 바이트열로부터 문자 인코딩이 결정되어 유니코드 스칼라 값의 열로 변환된다.
시작 바이트열 패턴 | 인코딩 |
---|---|
FE FF ... |
UTF-16BE |
FF FE ... |
UTF-16LE |
기타 | UTF-8 (RFC 3629) |
해당 문자 인코딩에서 잘못된 바이트열(UTF-16BE D8 00
이나, UTF-8 F4 90 80 80
같은)은 치명적인 오류이다.
시작 바이트열은 무시되지 않고 해당 문자 인코딩으로 그대로 읽힌다. 그 결과로 나타나는 U+FEFF ZERO WIDTH NO-BREAK SPACE, 통칭 바이트 순서 마크(BOM)는 가로 공백 문자이므로 해석에 영향을 미치지 않는다.