LogIn E-mail
설계이야기
[Perl]한국어 인코딩
# 51     70.1.1 09:00

Perl은 5.8.0판부터 유니코드/ISO 10646에 대한 광범위한 지원을 합니다. 유니코드 지원의 일환으로 한중일을 비롯한 세계 각국에서 유니코드 이전에 쓰고 있었고 지금도 널리 쓰이고 있는 수많은 인코딩을 지원합니다.

유니코드는 전 세계에서 쓰이는 모든 언어를 위한 표기 체계 - 유럽의 라틴 알파벳, 키릴 알파벳, 그리스 알파벳, 인도와 동남 아시아의 브라미 계열 스크립트, 아랍 문자, 히브리 문자, 한중일의 한자, 한국어의 한글, 일본어의 가나, 북미 인디안의 표기 체계 등-를 수용하는 것을 목표로 하고 있기 때문에 기존에 쓰이던 각 언어 및 국가 그리고 운영 체계에 고유한 문자 집합과 인코딩에 쓸 수 있는 모든 글자는 물론이고 기존 문자 집합에서 지원하고 있지 않던 아주 많은 글자를 포함하고 있습니다.

Perl은 내부적으로 유니코드를 문자 표현을 위해 사용합니다. 보다 구체적으로 말하면 Perl 스크립트 안에서 UTF-8 문자열을 쓸 수 있고, 각종 함수와 연산자(예를 들어, 정규식, index, substr)가 바이트 단위 대신 유니코드 글자 단위로 동작합니다. (더 자세한 것은 perlunicode 매뉴얼을 참고하십시오.)

유니코드가 널리 보급되기 전에 널리 쓰이고 있었고, 여전히 널리 쓰이고 있는 각국/각 언어별 인코딩으로 입출력을 하고 이들 인코딩으로 된 데이터와 문서를 다루는 것을 돕기 위해 ’Encode’가 쓰였습니다. 무엇보다 ’Encode’를 써서 수많은 인코딩 사이의 변환을 쉽게 할 수 있습니다.

’Encode’는 다음과 같은 한국어 인코딩을 지원합니다.

euc-kr  

US-ASCII와 KS X 1001을 같이 쓰는 멀티바이트 인코딩 (흔히 완성형이라고 불림.) KS X 2901과 RFC 1557 참고.
 
cp949  

MS-Windows 9x/ME에서 쓰이는 확장 완성형.  euc-kr에 8,822자의 한글 음절을 더한 것임.  alias는 uhc, windows-949, x-windows-949, ks_c_5601-1987. 맨 마지막 이름은 적절하지 않은 이름이지만, Microsoft 제품에서 CP949의 의미로 쓰이고 있음.
 
johab  

KS X 1001:1998 부록 3에서 규정한 조합형.  문자 레퍼토리는 cp949와 마찬가지로 US-ASCII와  KS X 1001에 8,822자의 한글 음절을 더한 것임. 인코딩 방식은 전혀 다름.
 
iso-2022-kr  

RFC 1557에서 규정한 한국어 인터넷 메일 교환용 인코딩으로 US-ASCII와 KS X 1001을 레퍼토리로 하는 점에서 euc-kr과 같지만 인코딩 방식이 다름. 1997-8년 경까지 쓰였으나 더 이상 메일 교환에 쓰이지 않음.

ksc5601-raw  

KS X 1001(KS C 5601)을 GL(즉, MSB를 0으로 한 경우) 에 놓았을 때의 인코딩. US-ASCII와 결합하지 않고 단독으로 쓰이는 일은 X11 등에서 글꼴 인코딩 (ksc5601.1987-0. ’0’은 GL을 의미함.)으로 쓰이는 것을 제외하고는 거의 없음. KS C 5601은 1997년 KS X 1001로 이름을 바꾸었음.  1998년에는 두 글자 (유로화 부호와 등록 상표 부호)가 더해졌음.


몇 가지 사용 예제를 아래에 보입니다.

예를 들어, euc-kr 인코딩으로 된 파일을 UTF-8로 변환하려면 다음과 같이 하면 됩니다.

    perl -Mencoding=euc-kr,STDOUT,utf8 -pe1  < file.euckr > file.utf8

역변환은 다음과 같이 할 수 있습니다.

    perl -Mencoding=utf8,STDOUT,euc-kr -pe1  < file.utf8  > file.euckr

이런 변환을 좀더 편리하게 할 수 있도록 Encode 모듈을 써서 순수하게 Perl로만 쓰인 piconv가 Perl에 들어 있습니다. 그 이름에서 알 수 있듯이 piconv는 Unix에 있는 iconv를 모델로 한 것입니다. 그 사용법은 아래와 같습니다.

   piconv -f euc-kr -t utf8 < file.euckr > file.utf8
   piconv -f utf8 -t euc-kr < file.utf8 > file.euckr

또, ’PerlIO::encoding’ 모듈을 써서 한국어 인코딩을 쓰면서 글자 단위
(바이트 단위가 아니라) 처리를 쉽게 할 수 있습니다.

  #!/path/to/perl

  use encoding ’euc-kr’, STDIN => ’euc-kr’,
                         STDOUT-> ’euc-kr’, STDERR=>’euc-kr’;

  print length("가나");        # 2  (큰 따옴표는 글자 단위 처리를 지시)
  print length(’가나’);        # 4  (작은 따옴표는 바이트 단위 처리를 지시)
  print index("한강, 대동강", "염");   # -1 (’염’이 없음)
  print index(’한강, 대동강’, ’염’);   # 7 (8번째와 9번째 바이트가 ’염’의 코드값과 일치함.)

더 자세히 알고 싶으면...

Perl을 설치하면  대단히 자세한 문서가 같이 따라 오며, 이 문서를 통해 Perl 전반 뿐 아니라 유니코드 지원, Encode의 사용법 등에 많은 것을 배울 수 있습니다.  아직 이 문서는 현재 모두 영어로 쓰여 있습니다.

유니코드 및 한국어 인코딩 관련 자료

<http://www.unicode.org/> 유니코드 컨소시엄.
 
<http://std.dkuug.dk/JTC1/SC2/WG2>  기본적으로 Unicode와 같은 ISO 표준인 ISO/IEC 10646 UCS(Universal Character Set)을 만드는 ISO/IEC JTC1/SC2/WG2의 웹 페이지.  

<http://jshin.net/faq/qa8.html>  한국어 문자 집합 및 인코딩에 대한 안내.
 
<http://www.cl.cam.ac.uk/~mgk25/unicode.html> 유닉스/리눅스에서 유니코드와 UTF-8 사용에 대한 문답집(FAQ)
 
<http://kldp.org/Translations/html/UTF8-Unicode-KLDP/UTF8-Unicode-KLDP.html>  유닉스/리눅스에서 유니코드와 UTF-8 사용에 대한 문답집(FAQ)의  한국어 번역

SEE ALSO : Encode, Encode::KR, encoding, perluniintro, perlunicode
AUTHORS : Jarkko Hietaniemi <jhi@iki.fi> 신정식 <jshin@mailaps.org>

게시물: 103 건, 현재: 1 / 2 쪽
번호 제       목 작성자 등록일 방문
106  arithmetic in a makefile, shell pwd export JMJS 17.9.8 653
105  Split and merge large files JMJS 16.3.21 615
104  [Makefile]random JMJS 14.12.5 939
100  윈도우7 용량부족 winsxs 폴더 최적화 JMJS 14.10.14 1857
99  [sh,csh]while loop JMJS 13.2.6 1994
98  hostname, hostid, /sbin/ifconfig eth0 JMJS 13.1.4 3818
97  [linux]fedora 16 gome-shell extension JMJS 12.3.12 1649
96  [linux]fedora 16 grub boot order change JMJS 12.3.10 1936
95  [linux]fedora Input Method,ibus,hangul JMJS 12.3.8 1627
94  [linux]audio,mp3,mplayer,gstreamer,vlc JMJS 12.3.7 2101
93  [sh].wrapper example JMJS 11.6.15 1827
92  [make]for loop JMJS 11.9.8 1621
91  [make]conditional expression JMJS 11.5.12 1529
90  [make]shell 실행 JMJS 11.3.9 1627
89  [wish]jplot JMJS 10.5.12 1300
88  yum JMJS 09.8.12 1343
87  [CYGWIN]X setup하기 JMJS 10.8.6 2512
86  [Make]Makefile Brief JMJS 10.8.6 1329
85  ldd /user/bin/xterm JMJS 09.4.24 1052
84  [HTML]어도비 SVG 뷰어와 HTML JMJS 09.4.24 1575
83  [DOS]DOS command JMJS 09.7.20 1270
82  [DOS]DOS command brief JMJS 07.2.21 1720
81  웹페이지 소스보기 JMJS 09.4.24 1257
80  [html]자동으로 글자색 바뀜 JMJS 07.1.10 1227
79  [html]복사, 드래그 금지 JMJS 07.1.10 1714
78  [csh]cshell에서 function 못쓴다네요 JMJS 11.3.17 1231
77  리눅스에서 i386,i586,i686, x86의 차이점 JMJS 06.10.16 1543
76  [CSH]$status JMJS 06.8.21 1020
75  [sh]substr, read, until,IFS,for,dirname JMJS 14.12.19 1220
74  [sh]rgbview.sh . hello.sh JMJS 10.11.30 1124
73  automount - /etc/fstab JMJS 06.2.23 1163
72  lmutil.csh JMJS 05.11.8 1474
71  화일이름에 못오는 문자 JMJS 05.9.8 1228
70  /usr/ucb /usr/ccs JMJS 05.9.5 1142
69  Solaris Version JMJS 05.9.5 1368
68  /usr/ccs/bin/nm -x debpli.so JMJS 05.8.31 1620
67  tar, gzip, zcat, uncompress, mn(.a 파일보기) JMJS 13.1.6 1473
66  find . -name -print -exec perl JMJS 09.4.17 1436
65  pkgadd -d packagefile JMJS 05.5.9 1196
64  prstat JMJS 08.10.2 1428
63  vi 명령어, vim명령어 gvim JMJS 11.2.11 4208
62  multiple directory 에서 grep ? JMJS 04.5.31 1593
61  [csh].cshrc_axis JMJS 04.5.14 1488
60  [csh].cshrc_modelsim JMJS 04.5.14 1564
59  [csh].cshrc_cadence JMJS 04.5.14 1625
58  [csh].cshrc_novas JMJS 04.5.14 1505
57  [csh].cshrc_verisity JMJS 04.5.14 1864
56  lmgrd JMJS 09.6.22 2223
55  [csh]which case JMJS 04.5.14 1493
54  [bash]example 2 JMJS 04.5.12 1624
53  [bash]example 1 JMJS 04.5.12 1572
52  fedora 12에서 touchpad disable JMJS 11.1.17 1667
51  [Perl]한국어 인코딩 JMJS 04.1.16 2427
50  [Perl]HTML에서 기호 표시를 위한 문자치환 JMJS 04.1.5 9673
49  [csh]make awk JMJS 03.6.6 1820
48  [csh]wordsplit JMJS 03.6.6 1508
47  [csh]vi2 JMJS 03.6.6 1326
46  [csh]cat.csh JMJS 03.6.6 1422
45  [csh]chgword.csh JMJS 03.6.6 1315
44  [bash]password JMJS 11.3.9 1274
43  [Tcl]bi2int JMJS 02.11.29 1270
42  [PC]ask 검색창이 자꾸 뜬다면 JMJS 09.4.24 1707
41  [csh]backup_copyc.csh; foreach; continue JMJS 09.4.24 1443
40  uname, uname -s -r, uname -p, uname -a JMJS 09.4.24 1641
39  [tk]새 창 열고 닫기 예제 JMJS 09.4.24 11231
38  [sh]if [[ "$abc" == "abc" && "$bbc" == "bbc" ]]; ... JMJS 11.3.17 1330
37  [expect]expect_scp.exp JMJS 11.3.9 1431
36  ssh -x -l soc lion scp -r ... JMJS 11.3.9 1231
35  TclTk 배열 JMJS 09.7.20 1310
34  ./configure make make install JMJS 11.1.13 1232
33  [csh]diff JMJS 10.7.14 1310
32  tr abc 123 < file1 > file2 JMJS 11.4.11 1248
31  Installing RPMforge JMJS 10.2.8 1321
30  [태그]글자색이 사라짐 JMJS 09.4.24 1404
29  [태그]자동으로 글자색이 변함 JMJS 09.4.24 1389
28  글자태그 모음 JMJS 09.4.24 1501
27  색상명과 RGB값 표 JMJS 09.4.24 1537
26  RGB 색상표 JMJS 09.4.24 1700
25  한글특수문자표 JMJS 09.4.24 1452
24  bc -l JMJS 01.5.22 1244
23  file *,  od -xc *, cat * JMJS 01.3.28 1579
22  Linux Memo JMJS 09.7.20 1443
21  xterm -fn 10x20 & JMJS 12.3.7 1297
20  W/S Tip JMJS 09.4.29 1370
19  [awk]example JMJS 10.10.30 1566
18  [csh].cshrc JMJS 11.6.21 1925
17  stop & background job JMJS 00.11.14 1229
16  W/S shout down JMJS 00.11.14 1246
15  [sed]example JMJS 16.9.5 1622
14  [DOS]Memo JMJS 00.10.29 1356
13  [csh]리스트를 만들어 foreach로 처리할때 JMJS 00.10.7 4538
12  [Tcl]Tool Command Language JMJS 09.7.24 2500
11  [csh]vi.csh JMJS 00.6.27 1358
10  [csh]Check Process JMJS 00.6.27 1257
9  [csh]Get Character and get char without 'return' JMJS 10.2.8 1392
8  [csh]foreach SED JMJS 00.6.27 1646
7  [Window]오류보고 안 뜨게하는 방법 JMJS 09.9.23 1304
6  [csh]echo.csh JMJS 00.6.27 1458
5  set DDD = `date '+%y%m'` JMJS 00.6.27 1230
4  [SH]Advanced Bash-Scripting Guide JMJS 09.4.24 1188
[1] [2]