MySQL: руководство профессионала
Шрифт:
Выражение _charset_name формально названо introducer. Это сообщает синтаксическому анализатору, что строка предположительно соответствует набору символов X. Поскольку было много путаницы в прошлом, следует особо подчеркнуть, что introducer не вызывает никаких преобразований, это строго сигнал, который не изменяет значение строки. Introducer также допустим перед стандартным шестнадцатеричным литералом и числовой шестнадцатеричной литеральной записью (x'literal' и 0xnnnn)>.
Пример:
SELECT _latin1 x'AABBCC';
SELECT _latin1 0xAABBCC;
MySQL
Если были определены _X и COLLATE Y, то используется набор символов X и объединение Y.
Если определен _X, но не определен COLLATE, то используется набор символов X и заданное по умолчанию объединение.
Иначе, используются набор символов и объединение, заданные переменными системы character_set_connection и collation_connection.
Пример:
Строка с набором символов latin1 и объединением latin1_german1_ci:
SELECT _latin1'M+ller' COLLATE latin1_german1_ci;
Строка с набором символов latin1 и заданным по умолчанию объединением (то есть, latin1_swedish_ci):
SELECT _latin1'M+ller';
Строка с набором символов и объединением по умолчанию подключения:
SELECT 'M+ller';
Набор символов и предложение COLLATE выполнены согласно стандарту SQL
introducer указывает набор символов для следующей строки, но не изменяет того, как синтаксический анализатор выполняет обработку Escape внутри строки. Escape всегда интерпретируются синтаксическим анализатором согласно набору символов, заданному в character_set_connection.
Следующие примеры показывают, что происходит обработка Escape, используя character_set_connection даже в присутствии introducer. Примеры используют SET NAMES (который изменяет character_set_connection) и отображает возникающие в результате строки, использующие HEX, чтобы было видно точное строковое содержимое.
Пример 1:
mysql> SET NAMES latin1;
Query OK, 0 rows affected (0.01 sec)
mysql> SELECT HEX('+а\n'), HEX(_sjis'+а\n');
+-------------+------------------+
| HEX('+а\n') | HEX(_sjis'+а\n') |
+-------------+------------------+
| E00A | E00A |
+-------------+------------------+
1 row in set (0.00 sec)
Здесь +а (шестнадцатеричное значение E0) сопровождается \n, управляющей последовательностью для новой строки. Управляющая последовательность интерпретируется, используя значение character_set_connection latin1, чтобы произвести литерал newline (новая строка, шестнадцатеричное значение 0A). Это случается даже для
Пример 2:
mysql> SET NAMES sjis;
Query OK, 0 rows affected (0.00 sec)
mysql> SELECT HEX('+а\n'), HEX(_latin1'+а\n');
+-------------+--------------------+
| HEX('+а\n') | HEX(_latin1'+а\n') |
+-------------+--------------------+
| E05C6E | E05C6E |
+-------------+--------------------+
1 row in set (0.04 sec)
Здесь character_set_connection равен sjis, набор символов в котором последовательность +а сопровождается \ (шестнадцатеричные значения 05 и 5C), допустимый многобайтовый символ. Следовательно, первые два байта строки интерпретируются как одиночный символ sjis, и \ не обрабатывается как символ ESC. Следующий n (шестнадцатеричное значение 6E) не интерпретируется как часть управляющей последовательности. Таким образом, introducer _latin1 не воздействует на обработку Escape.
10.3.6. Национальный набор символов
Стандарт SQL определяет NCHAR или NATIONAL CHAR как способ указать, что столбец CHAR должен использовать некоторый предопределенный набор символов. MySQL 5.1 использует utf8 как этот предопределенный набор символов. Например, эти объявления типа данных эквивалентны:
CHAR(10) CHARACTER SET utf8
NATIONAL CHARACTER(10)
NCHAR(10)
Эти тоже взаимозаменяемы:
VARCHAR(10) CHARACTER SET utf8
NATIONAL VARCHAR(10)
NCHAR VARCHAR(10)
NATIONAL CHARACTER VARYING(10)
NATIONAL CHAR VARYING(10)
Вы можете использовать N'literal', чтобы создать строку в национальном наборе символов. Эти две инструкции эквивалентны:
SELECT N'some text';
SELECT _utf8'some text';
10.3.7. Примеры назначения набора символов и объединения
Следующие примеры показывают, как MySQL определяет заданные по умолчанию набор символов и объединение.
Пример 1: определение таблицы и столбца
CREATE TABLE t1 (c1 CHAR(10) CHARACTER SET latin1 COLLATE latin1_german1_ci)
DEFAULT CHARACTER SET latin2
COLLATE latin2_bin;
Здесь мы имеем столбец с набором символов latin1 и объединением latin1_german1_ci. Определение явно, так что это просто. Обратите внимание, что не имеется никакой проблемы с сохранением столбца latin1 в таблице latin2.
Пример 2: определение таблицы и столбца
CREATE TABLE t1 (c1 CHAR(10) CHARACTER SET latin1)
DEFAULT CHARACTER SET latin1
COLLATE latin1_danish_ci;
На сей раз мы имеем столбец с набором символов latin1 и заданным по умолчанию объединением. Хотя это могло бы показаться естественным, заданное по умолчанию объединение не принимается из уровня таблицы. Вместо этого, поскольку заданное по умолчанию объединение для latin1 обязательно latin1_swedish_ci, столбец c1 имеет объединение latin1_swedish_ci (не latin1_danish_ci).