libguess: cjk_impl.c annotate

annotate cjk_impl.c @ 2:754a4550c64e

- added arabic, greek, hebrew and turkish DFAs - new UCS-2LE/BE DFAs - now arabic_impl.c uses arabic DFAs - dfa common macros have been moved to dfa.h - minor cleanups

author	Yoshiki Yazawa <yaz@cc.rim.or.jp>
date	Wed, 11 Jun 2008 00:11:30 +0900
parents	d9b6ff839eab
children	70e2c306231e

rev	line source
0 d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	1 /*
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	2 * This code is derivative of guess.c of Gauche-0.8.3.
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	3 * The following is the original copyright notice.
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	4 */
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	5
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	6 /*
2 754a4550c64e - added arabic, greek, hebrew and turkish DFAs Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: 0 diff changeset	7 * guess.c - guessing character encoding
0 d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	8 *
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	9 * Copyright (c) 2000-2003 Shiro Kawai, All rights reserved.
2 754a4550c64e - added arabic, greek, hebrew and turkish DFAs Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: 0 diff changeset	10 *
0 d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	11 * Redistribution and use in source and binary forms, with or without
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	12 * modification, are permitted provided that the following conditions
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	13 * are met:
2 754a4550c64e - added arabic, greek, hebrew and turkish DFAs Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: 0 diff changeset	14 *
0 d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	15 * 1. Redistributions of source code must retain the above copyright
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	16 * notice, this list of conditions and the following disclaimer.
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	17 *
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	18 * 2. Redistributions in binary form must reproduce the above copyright
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	19 * notice, this list of conditions and the following disclaimer in the
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	20 * documentation and/or other materials provided with the distribution.
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	21 *
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	22 * 3. Neither the name of the authors nor the names of its contributors
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	23 * may be used to endorse or promote products derived from this
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	24 * software without specific prior written permission.
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	25 *
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	26 * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	27 * "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	28 * LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	29 * A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	30 * OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	31 * SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	32 * TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	33 * PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	34 * LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	35 * NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	36 * SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	37 *
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	38 */
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	39
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	40 #include "libguess.h"
2 754a4550c64e - added arabic, greek, hebrew and turkish DFAs Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: 0 diff changeset	41 #include "dfa.h"
0 d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	42
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	43 /* workaround for that glib's g_convert can't convert
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	44 properly from UCS-2BE/LE trailing after BOM. */
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	45 #define WITH_G_CONVERT 1
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	46 /* #undef WITH_G_CONVERT */
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	47
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	48 #ifdef WITH_G_CONVERT
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	49 const char UCS_2BE[] = "UTF-16";
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	50 const char UCS_2LE[] = "UTF-16";
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	51 #else
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	52 const char UCS_2BE[] = "UCS-2BE";
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	53 const char UCS_2LE[] = "UCS-2LE";
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	54 #endif
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	55
2 754a4550c64e - added arabic, greek, hebrew and turkish DFAs Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: 0 diff changeset	56 /* take precedence if scores are same. you can customize the order as: */
754a4550c64e - added arabic, greek, hebrew and turkish DFAs Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: 0 diff changeset	57 /* ORDER_** &highest, &second, ... &lowest */
754a4550c64e - added arabic, greek, hebrew and turkish DFAs Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: 0 diff changeset	58 #define ORDER_JP &utf8, &sjis, &eucj
754a4550c64e - added arabic, greek, hebrew and turkish DFAs Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: 0 diff changeset	59 #define ORDER_TW &utf8, &big5
754a4550c64e - added arabic, greek, hebrew and turkish DFAs Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: 0 diff changeset	60 #define ORDER_CN &utf8, &gb2312, &gb18030
754a4550c64e - added arabic, greek, hebrew and turkish DFAs Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: 0 diff changeset	61 #define ORDER_KR &utf8, &euck, &johab
0 d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	62
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	63 /* include DFA table generated by guess.scm */
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	64 #include "guess_tab.c"
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	65
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	66
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	67 int dfa_validate_utf8(const char *buf, int buflen)
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	68 {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	69 int i;
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	70 guess_dfa utf8 = DFA_INIT(guess_utf8_st, guess_utf8_ar);
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	71
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	72 for (i = 0; i < buflen; i++) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	73 int c = (unsigned char) buf[i];
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	74
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	75 if (DFA_ALIVE(utf8))
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	76 DFA_NEXT(utf8, c);
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	77 else
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	78 break;
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	79 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	80
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	81 DFA_NEXT(utf8, '\0'); //Bug #53
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	82
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	83 if(DFA_ALIVE(utf8))
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	84 return 1;
2 754a4550c64e - added arabic, greek, hebrew and turkish DFAs Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: 0 diff changeset	85 else
0 d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	86 return 0;
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	87 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	88
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	89 const char guess_jp(const char buf, int buflen)
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	90 {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	91 int i;
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	92 guess_dfa eucj = DFA_INIT(guess_eucj_st, guess_eucj_ar);
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	93 guess_dfa sjis = DFA_INIT(guess_sjis_st, guess_sjis_ar);
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	94 guess_dfa utf8 = DFA_INIT(guess_utf8_st, guess_utf8_ar);
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	95 guess_dfa *top = NULL;
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	96
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	97 guess_dfa *order[] = { ORDER_JP, NULL };
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	98
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	99 for (i = 0; i < buflen; i++) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	100 int c = (unsigned char) buf[i];
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	101
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	102 /* special treatment of iso-2022 escape sequence */
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	103 if (c == 0x1b) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	104 if (i < buflen - 1) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	105 c = (unsigned char) buf[++i];
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	106 if (c == '$' \|\| c == '(')
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	107 return "ISO-2022-JP";
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	108 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	109 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	110
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	111 /* special treatment of BOM */
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	112 if (i == 0 && c == 0xff) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	113 if (i < buflen - 1) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	114 c = (unsigned char) buf[i + 1];
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	115 if (c == 0xfe)
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	116 return UCS_2LE;
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	117 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	118 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	119 if (i == 0 && c == 0xfe) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	120 if (i < buflen - 1) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	121 c = (unsigned char) buf[i + 1];
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	122 if (c == 0xff)
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	123 return UCS_2BE;
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	124 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	125 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	126
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	127 if (DFA_ALIVE(eucj)) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	128 if (!DFA_ALIVE(sjis) && !DFA_ALIVE(utf8))
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	129 return "EUC-JP";
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	130 DFA_NEXT(eucj, c);
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	131 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	132 if (DFA_ALIVE(sjis)) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	133 if (!DFA_ALIVE(eucj) && !DFA_ALIVE(utf8))
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	134 return "SJIS";
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	135 DFA_NEXT(sjis, c);
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	136 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	137 if (DFA_ALIVE(utf8)) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	138 if (!DFA_ALIVE(sjis) && !DFA_ALIVE(eucj))
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	139 return "UTF-8";
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	140 DFA_NEXT(utf8, c);
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	141 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	142
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	143 if (!DFA_ALIVE(eucj) && !DFA_ALIVE(sjis) && !DFA_ALIVE(utf8)) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	144 /* we ran out the possibilities */
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	145 return NULL;
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	146 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	147 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	148
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	149 /* Now, we have ambigous code. Pick the highest score. If more than
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	150 one candidate tie, pick the default encoding. */
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	151 for (i = 0; order[i] != NULL; i++) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	152 if (order[i]->state >= 0) { //DFA_ALIVE()
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	153 if (top == NULL \|\| order[i]->score > top->score)
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	154 top = order[i];
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	155 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	156 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	157
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	158 if (top == &eucj)
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	159 return "EUC-JP";
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	160 if (top == &utf8)
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	161 return "UTF-8";
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	162 if (top == &sjis)
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	163 return "SJIS";
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	164 return NULL;
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	165 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	166
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	167 const char guess_tw(const char buf, int buflen)
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	168 {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	169 int i;
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	170 guess_dfa big5 = DFA_INIT(guess_big5_st, guess_big5_ar);
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	171 guess_dfa utf8 = DFA_INIT(guess_utf8_st, guess_utf8_ar);
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	172 guess_dfa *top = NULL;
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	173
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	174 guess_dfa *order[] = { ORDER_TW, NULL };
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	175
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	176 for (i = 0; i < buflen; i++) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	177 int c = (unsigned char) buf[i];
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	178
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	179 /* special treatment of iso-2022 escape sequence */
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	180 if (c == 0x1b) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	181 if (i < buflen - 1) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	182 c = (unsigned char) buf[++i];
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	183 if (c == '$' \|\| c == '(')
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	184 return "ISO-2022-TW";
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	185 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	186 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	187
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	188 /* special treatment of BOM */
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	189 if (i == 0 && c == 0xff) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	190 if (i < buflen - 1) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	191 c = (unsigned char) buf[i + 1];
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	192 if (c == 0xfe)
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	193 return UCS_2LE;
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	194 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	195 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	196 if (i == 0 && c == 0xfe) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	197 if (i < buflen - 1) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	198 c = (unsigned char) buf[i + 1];
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	199 if (c == 0xff)
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	200 return UCS_2BE;
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	201 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	202 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	203
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	204 if (DFA_ALIVE(big5)) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	205 if (!DFA_ALIVE(utf8))
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	206 return "BIG5";
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	207 DFA_NEXT(big5, c);
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	208 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	209 if (DFA_ALIVE(utf8)) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	210 if (!DFA_ALIVE(big5))
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	211 return "UTF-8";
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	212 DFA_NEXT(utf8, c);
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	213 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	214
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	215 if (!DFA_ALIVE(big5) && !DFA_ALIVE(utf8)) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	216 /* we ran out the possibilities */
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	217 return NULL;
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	218 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	219 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	220
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	221 /* Now, we have ambigous code. Pick the highest score. If more than
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	222 one candidate tie, pick the default encoding. */
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	223 for (i = 0; order[i] != NULL; i++) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	224 if (order[i]->state >= 0) { //DFA_ALIVE()
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	225 if (top == NULL \|\| order[i]->score > top->score)
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	226 top = order[i];
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	227 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	228 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	229
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	230 if (top == &big5)
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	231 return "BIG5";
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	232 if (top == &utf8)
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	233 return "UTF-8";
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	234 return NULL;
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	235 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	236
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	237 const char guess_cn(const char buf, int buflen)
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	238 {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	239 int i;
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	240 guess_dfa gb2312 = DFA_INIT(guess_gb2312_st, guess_gb2312_ar);
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	241 guess_dfa utf8 = DFA_INIT(guess_utf8_st, guess_utf8_ar);
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	242 guess_dfa gb18030 = DFA_INIT(guess_gb18030_st, guess_gb18030_ar);
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	243 guess_dfa *top = NULL;
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	244
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	245 guess_dfa *order[] = { ORDER_CN, NULL };
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	246
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	247 for (i = 0; i < buflen; i++) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	248 int c = (unsigned char) buf[i];
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	249 int c2;
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	250
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	251 /* special treatment of iso-2022 escape sequence */
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	252 if (c == 0x1b) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	253 if (i < buflen - 1) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	254 c = (unsigned char) buf[i + 1];
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	255 c2 = (unsigned char) buf[i + 2];
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	256 if (c == '$' && (c2 == ')' \|\| c2 == '+'))
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	257 return "ISO-2022-CN";
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	258 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	259 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	260
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	261 /* special treatment of BOM */
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	262 if (i == 0 && c == 0xff) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	263 if (i < buflen - 1) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	264 c = (unsigned char) buf[i + 1];
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	265 if (c == 0xfe)
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	266 return UCS_2LE;
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	267 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	268 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	269 if (i == 0 && c == 0xfe) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	270 if (i < buflen - 1) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	271 c = (unsigned char) buf[i + 1];
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	272 if (c == 0xff)
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	273 return UCS_2BE;
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	274 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	275 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	276
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	277 if (DFA_ALIVE(gb2312)) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	278 if (!DFA_ALIVE(utf8) && !DFA_ALIVE(gb18030))
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	279 return "GB2312";
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	280 DFA_NEXT(gb2312, c);
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	281 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	282 if (DFA_ALIVE(utf8)) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	283 if (!DFA_ALIVE(gb2312) && !DFA_ALIVE(gb18030))
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	284 return "UTF-8";
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	285 DFA_NEXT(utf8, c);
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	286 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	287 if (DFA_ALIVE(gb18030)) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	288 if (!DFA_ALIVE(utf8) && !DFA_ALIVE(gb2312))
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	289 return "GB18030";
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	290 DFA_NEXT(gb18030, c);
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	291 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	292
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	293 if (!DFA_ALIVE(gb2312) && !DFA_ALIVE(utf8) && !DFA_ALIVE(gb18030)) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	294 /* we ran out the possibilities */
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	295 return NULL;
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	296 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	297 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	298
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	299 /* Now, we have ambigous code. Pick the highest score. If more than
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	300 one candidate tie, pick the default encoding. */
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	301 for (i = 0; order[i] != NULL; i++) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	302 if (order[i]->state >= 0) { //DFA_ALIVE()
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	303 if (top == NULL \|\| order[i]->score > top->score)
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	304 top = order[i];
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	305 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	306 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	307
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	308 if (top == &gb2312)
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	309 return "GB2312";
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	310 if (top == &utf8)
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	311 return "UTF-8";
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	312 if (top == &gb18030)
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	313 return "GB18030";
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	314 return NULL;
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	315 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	316
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	317 const char guess_kr(const char buf, int buflen)
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	318 {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	319 int i;
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	320 guess_dfa euck = DFA_INIT(guess_euck_st, guess_euck_ar);
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	321 guess_dfa utf8 = DFA_INIT(guess_utf8_st, guess_utf8_ar);
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	322 guess_dfa johab = DFA_INIT(guess_johab_st, guess_johab_ar);
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	323 guess_dfa *top = NULL;
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	324
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	325 guess_dfa *order[] = { ORDER_KR, NULL };
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	326
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	327 for (i = 0; i < buflen; i++) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	328 int c = (unsigned char) buf[i];
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	329 int c2;
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	330
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	331 /* special treatment of iso-2022 escape sequence */
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	332 if (c == 0x1b) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	333 if (i < buflen - 1) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	334 c = (unsigned char) buf[i + 1];
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	335 c2 = (unsigned char) buf[i + 2];
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	336 if (c == '$' && c2 == ')')
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	337 return "ISO-2022-KR";
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	338 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	339 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	340
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	341 /* special treatment of BOM */
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	342 if (i == 0 && c == 0xff) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	343 if (i < buflen - 1) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	344 c = (unsigned char) buf[i + 1];
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	345 if (c == 0xfe)
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	346 return UCS_2LE;
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	347 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	348 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	349 if (i == 0 && c == 0xfe) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	350 if (i < buflen - 1) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	351 c = (unsigned char) buf[i + 1];
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	352 if (c == 0xff)
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	353 return UCS_2BE;
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	354 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	355 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	356
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	357 if (DFA_ALIVE(euck)) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	358 if (!DFA_ALIVE(johab) && !DFA_ALIVE(utf8))
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	359 return "EUC-KR";
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	360 DFA_NEXT(euck, c);
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	361 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	362 if (DFA_ALIVE(johab)) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	363 if (!DFA_ALIVE(euck) && !DFA_ALIVE(utf8))
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	364 return "JOHAB";
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	365 DFA_NEXT(johab, c);
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	366 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	367 if (DFA_ALIVE(utf8)) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	368 if (!DFA_ALIVE(euck) && !DFA_ALIVE(johab))
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	369 return "UTF-8";
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	370 DFA_NEXT(utf8, c);
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	371 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	372
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	373 if (!DFA_ALIVE(euck) && !DFA_ALIVE(johab) && !DFA_ALIVE(utf8)) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	374 /* we ran out the possibilities */
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	375 return NULL;
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	376 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	377 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	378
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	379 /* Now, we have ambigous code. Pick the highest score. If more than
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	380 one candidate tie, pick the default encoding. */
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	381 for (i = 0; order[i] != NULL; i++) {
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	382 if (order[i]->state >= 0) { //DFA_ALIVE()
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	383 if (top == NULL \|\| order[i]->score > top->score)
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	384 top = order[i];
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	385 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	386 }
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	387
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	388 if (top == &euck)
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	389 return "EUC-KR";
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	390 if (top == &utf8)
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	391 return "UTF-8";
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	392 if (top == &johab)
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	393 return "JOHAB";
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	394 return NULL;
d9b6ff839eab initial import Yoshiki Yazawa <yaz@cc.rim.or.jp> parents: diff changeset	395 }

Mercurial > libguess

annotate cjk_impl.c @ 2:754a4550c64e