вернуться 11 Декабря, №4

Исключения из правил декомпозиции
 
     Коллизии первого рода. Устраняются добавкой знака модификатора к наиболее редкому иероглифу. Такое добавление модификатора часто актуально только для иероглифов состоящих из одного графа. В иероглифах, где "модифицированный" граф употребляется в комбинациях с "нормальными", это добавление модификатора зачастую неактуально и реально не производится. Где это необходимо, отмечено в таблице коллизий второго рода (см. строки 1, 4, 5 и 6). Иероглифы в строке 3 встречаются с приблизительно равной частотой (~0,15%), поэтому выбор был сделан по сути произвольно, исходя из "логики" картинки (см. строка 4 с еще более редким иероглифом, где используется 2 модификатора).


модифицированный иероглиф
последовательность его графов
иероглиф без модификатора
1.
曰

2.

3.

4.

5.


6.

7.

8.

9.


 

      Коллизии второго рода. Устранение неопределенности в последовательности графов также производится добавлением к "сомнительным" иероглифам "пустого" графа-модификатора. Обратите внимание, что добавлен он в конце последовательности даже если употребляется граф из таблицы исключений первого рода (см., напр, строка 5) - это облегчает ввод "исключительных" иероглифов. Для такого рода модификации выбраны, понятно, боле редкие иероглифы. Интересно при этом, что эта разница в частоте встречаемости напрямую коррелирует со способом начертания: иероглифы в которых графы следуют друг за другом в строчку, встречаются в языке реже, чем те, в которых эти же графы располагаются один над одним, - за одним исключением (строка 13). Кого бы спросить, почему?
    Для особо любопытных, в качестве эдакого "курьеза", для модифицированных иероглифов в таблице (колонка 4) указана частота встречаемости приведенная к миллиону (по данным др-а Сяо).


модифицированный иероглиф
последовательность графов частота (шт./млн.)
"нормальный" иероглиф "нормальная" последовательность
1.

2.11

2.
2452.82
3.

111.07
4.
9.33
5.
0.51

6.

17.47

7.

8.72

8.

13.46

9.

0.19

10.

6.13

11.

1.37

12.

155.82

13.

103.90
14.

0.03

15.

0.56


16.

14.42


17.

0.03

18.

0.05

19.

0.99


    В наборе иероглифов современного китайского языка присутствует 5 изощрённых экземпляров, которые как-то проскочили через реформу упрощения (среди иероглифов традиционного описания таковых было 23) и ныне используются со следующей частотой:
- меньше двух с половиной сотых процента  (0,00024 или 246 раз на миллион)
- семь тысячных процента                              (0,00007 или 74 раз на миллион)
- семь десятитысячных процента                   (0,000007 или 7 раз на миллион)
- девять стотысячных процента                     (0,0000009 или 0,95 раз на миллион)
- одна стотысячная процента                         (0,0000001 или 0,13 раз на миллион)
    Первый и последний знаки этих иероглифов выступают в качестве одного охватывающего "псевдознака" (彳攵). А поскольку такого знака в наборе графов нет, и держать его ради пяти только иероглифов излишне расточительно, в полном описании последовательности знаков в этих иероглифах формально последний граф этого описания 攵становится вторым. Всё остальное для них также. Смотрите информацию об их маркёрах в приложениях.

вернуться К началу страницы 11 Декабря, №4