На титульную страницу 11 Декабря, №4

Краткое введение в "структурную иероглифику".


    Структурная иероглифика как идея появилась в результате практических попыток решить 2 задачи:
исходя из новых возможностей, предоставляемых "веком информационных технологий".
    Люди, вовлеченные в конкретную область преподавания китайского языка, уже привыкли использовать компьютер для передачи текстов, но весьма редко используют иные возможности компьютерных технологий, которые на порядок превышают привычное. Даже "электронные" словари, по сути, до сих пор остаются простым слепком с "плоских" бумажных словарей. Не используются ни возможности структурирования первичного материала, а этого не сделаешь без профессионального участия лингвистов, ни возможности комбинаторики и методов поиска, которые могут привнести специалисты по обработке данных. И пока лингвисты и программисты не "сговорятся", нам придется пользоваться творениями "любопытных дилетантов", таких как автор этих строк. И, тем не менее, две эти задачи показались решаемыми и их решение приблизилось к оптимальному. Однако в процессе решения этих двух задач родилась третья, поначалу казавшаяся "дикой" с точки зрения китаистики, но тривиальной с точки зрения ее программной реализации - ускоренный ввод иероглифов независимо от фонетики, не фонетическая система ввода. Последний (по времени) технологический скачок, связанный с появлением малых сенсорных экранов, и взрывное распространение устройств, не имеющих отдельной клавиатуры уже впрямую "затребовало" разработки не фонетического ввода. Непонятно, это "божий дар" или "происки сатаны", но композиционный ввод оказался много эффективнее фонетического, т.е. быстрее, короче по количеству манипуляций, необходимых для ввода отдельного иероглифа.  Понятно,что использование композиционного ввода несколько смещает акценты методики обучения, но самое главное, что он смещает их в сторону упрощения обучения иероглифики, ускорения обретения навыков чтения и письма, т.е. снижает порог вхождения в область китайского языка, который традиционно кажется непомерно высоким.


    Структурная иероглифика исходит из того, что каждый иероглиф ("двумерную картинку") можно представить как линейную последовательность компонентов (графов) из некоего ограниченного наперед заданного набора(1). Содержание этого набора графов было практически предопределено существованием так называемых "ключей", широко используемых традицией для сортировки иероглифов в словарях (соответственно, и для их поиска), а так же для мнемоники. В качестве "матрицы графов" был выбран один из многочисленных (и не совсем совпадающих друг с другом) наборов "иероглифических ключей". Поскольку он был беззастенчиво: а) "урезан" где надо, б) "расширен" для упрощения восприятия сильно отличающихся вариантов одного и того же "ключа", и в) дополнен несколькими новыми символами, - я предпочитаю не называть сей набор "ключами", тем более, что в данном контексте он не несет никакой "псевдо-ассоциативной" нагрузки со смысловыми группами значений иероглифов(2). Этот набор более или менее подробно описанный в следующей таблице, содержит 200 графов.

    Для первого опыта построения структурной иероглифики был использован набор иероглифов современного китайского языка в упрощенном начертании составленный др. Ричардом Сяо (R.Xiao) с указанием встречаемости иероглифов и выставленный в интернете по адресу: http://www.lancs.ac.uk/fass/projects/corpus/data/Chinese_character_frquency_list.zip. После удаления некоего числа "нечитаемых" знаков и иероглифов "старого образца", как-то "проникших" в набор доктора Сяо, а также удаления иероглифов, которые по данным доктора R. Xiao встречались реже, чем 1 раз на миллион (не велика потеря!), множество рассматриваемых иероглифов составило 4336 шт.

    Как набор графов для декомпозиции иероглифов, может выступать любой комплект "картинок", более или мене полно описывающий большее или меньшее число иероглифов. Но при построении "структурной иероглифики" к данному набору должно быть предъявлено дополнительное требование, а именно: он должен обеспечивать еще и минимальное количество графов, необходимых для однозначной идентификации любого конкретного иероглифа. Другими словами, чем меньше набор графов, и чем проще его запомнить, тем больше графов понадобится для однозначной идентификации каждого конкретного иероглифа. Исторически первым таким набором был набор стандартных черт. Но для идентификации иероглифа с помощью набора черт может потребоваться до двух-трех десятков черт. Предложенный набор из двухсот графов обеспечивает идентификацию (а потом и ввод) любого самого "навороченного" иероглифа с помощью максимум трех графов. Если некто дерзнет и составит набор для более "экономного" выбора любого иероглифа при меньшем наборе графов, я буду счастлив тем, что смог спровоцировать этого "некто" на столь славное дело. Другими словами, я не утверждаю, что предлагаемый набор графов оптимален, но берусь утверждать, что он достаточен для минимальной по числу графов на данный момент однозначной выборки любого иероглифа.

    При этом совершенно понятно, что структурная иероглифика это просто эмпирическое описание того, что есть. Никто и никогда не создавал иероглифы для того, чтобы нам сейчас было проще описывать их. Никакой "логичности" и "упорядоченности" в структуре иероглифов искать не стоит. Скорее всего их там нет. Иероглифы не создавались по типу формальных комбинативных систем. Но то, что в иероглифике заведомо есть, это следование естественным законам восприятия и распознавания сложных графических образов. И опыт многих поколений по запоминанию и использованию иероглифов привел к тому, что общая структура иероглифов как сложных графических образов постепенно, подспудно и неосознанно, приводилась в соответствие с этими законами: целостный охват образа, разделение его на компоненты, переход снаружи внутрь, вычленение маркерных элементов, позволяющих сразу уловить уникальность образа, его "захват" подсознанием и удержание его как целостного образа без акцента на "малозначащих" деталях.
   
    Поскольку мы представляем (для себя и для машины) иероглиф как линейную последовательность графов, необходимо "зафиксировать" порядок декомпозиции иероглифа, т.е. описать правила декомпозиции или "правила резки", или правила описания иероглифа. Они просты и понятны.

    1. Направление декомпозиции - слева-сверху вправо-вниз. Все понятно, в большинстве случаев разбивка очевидна и однозначна.

Иероглиф легко представляется как , что соответствует линейной последовательности графов:  . Когда один граф располагается внутри другого, декомпозиция идет "снаружи-внутрь". Подобные случаи специально отмечены в описании графов. Иногда некоторые "возмущения" в эту очевидную простоту вносит второе правило.

    2. Приоритет сложности или минимизация количества графов. Иероглиф следует разбивать на возможно минимальное количество графов, посему, в первую очередь следует использовать наиболее "сложные" графы.  Пример.

В иероглифе очевидным кажется первый граф "ученый", но тогда иероглиф представляется как целая "гребенка" графов  - 5 штук ("ученый", "рот", "усики", "горизонталь", "рот"). Если же в качестве первого задать граф "десять", то этот "зоопарк" сократится до трех графов   - "десять", "бобы", "рот". Вот такие экзерсисы иногда приходится делать, но, в большинстве случаев, уверяю вас, все просто и очевидно.

    3. Абсолютный запрет на разделение графов. Графы атомарны, т.е. неделимы в принципе. 

    Исходя из этих простых правил можно попытаться описать любое количество иероглифов. Достаточно быстро такое описание приводит к появлению первых коллизий. 

    Коллизии первого рода представлены слабо различающимися иероглифами, для которых нет резона вводить отдельный граф, но тогда такого рода иероглифы будут описываться одинаковыми последовательностями графов (в простейших случаях одним графом)  Например, и или и . Разрешить такие коллизии довольно просто. Обозначим как "-модифицированный",  с помощью "пустого" графа (звездочки - "*"), которого нет в составе иероглифа, но он присутствует в его описании в конце полной последовательности графов данного иероглифа как указание на некую (в данном случае графически безразлично какую) "модификацию" данного графа. Тогда последовательность графов иероглифа будет следующей : 鸟*.  То же для и : последовательность графов, описывающих есть *. Все коллизии этого рода описаны здесь.

    Настоящие коллизии начинаются тогда, когда линейная последовательность графов не позволяет однозначно идентифицировать иероглиф. Таких "проблемных" иероглифов во всем наборе обнаружилось 18. Это коллизии второго рода и все они описаны там же.
    Пример.  и при декомпозиции "разворачиваются" в одну и ту же последовательность графов: 口 贝. Для устранения такого рода неопределенностей используем уже знакомый нам пустой граф - * . В приведенном примере такой  граф добавлен в последовательность графов второго иероглифа и его (уже однозначно) представляет последовательность 口贝*, тогда как последовательность 口贝 остается идентификатором более частого иероглифа .

    Итак, мы имеем набор иероглифов в лучшей российской традиции "распиленных" на графы. Понятно, что полученная последовательность графов каждого иероглифа однозначно определяет его, т.е. можно гарантировать, что у всего набора иероглифов, разделенных на графы "правильно" (по вышеописанным правилам) не будут встречаться  одинаковых последовательностей графов. Этого уже достаточно для того, чтобы использовать результат декомпозиции иероглифов на графы для "обратной сборки" иероглифов из графов, например, чтобы проверить, правильно ли вы запомнили последовательность графов и правильно ли воспроизводите "в голове", а потом и на машине некий заданный иероглиф.

    Такого рода набор иероглифов или  таблица описания иероглифов, включающая для каждого иероглифа полную последовательность его графов, позволяет выбрать из нее иероглифы по любому наперед заданному критерию. Например, все иероглифы, начинающиеся на некоторый граф или кончающиеся некоторым графом, или содержащие некоторый граф в любой позиции. Другими словами, мы можем идентифицировать и выбрать из этой таблицы иероглифы по их "составу", т.е по графам, описывающим данные иероглифы, в любой мыслимой их комбинации. Если запрос к таблице по некой комбинации графов возвращает единственный иероглиф, будем считать это однозначной идентификацией иероглифа по его графам.

    Опыт показывает, что на самом деле, используемое нами описание иероглифов несет в себе некоторую "информационную избыточность", и мы вправе предположить, что хотя бы для некоторых иероглифов существуют наборы графов меньшие, чем полная последовательность, но способные однозначно идентифицировать данный иероглиф. Назовем такие последовательности маркерами. На наше счастье такие маркеры существуют и работают.
    Например, иероглиф описывается последовательностью из шести графов:  人舌 乛丶乛亅, а маркером для него является последовательность двух только графов: 人亅, т.е. указав машине графы и , мы вправе ожидать, что она предъявит нам "на опознание" именно иероглиф . Обратите внимание, маркер этого иероглифа состоит из первого и последнего графов полной последовательности. Случайно? Конечно, нет. Как оказалось, по первому, второму и последнему графам можно однозначно идентифицировать почти все иероглифы из рассматриваемого множества. Из оставшихся 43-х иероглифов 41 требуют для идентификации четвертого графа, а именно предпоследнего, и два иероглифа идентифицируются только по первому, второму и третьему графам. Эта закономерность как раз и отражает указанные выше законы естественного восприятия сложных графических образов: мы "охватываем" иероглиф с двух сторон и только в случае необходимости переходим внутрь.

    Был разработан отдельный алгоритм, который идентифицирует иероглифы по этому принципу. Он был условно назван fsl-алгоритмом (от англ. first, second, last - первый, второй, последний). Грубо говоря, указав машине первый, второй и последний графы некоторого иероглифа, с помощью fsl-алгоритма мы находим его в таблице описания с вероятностью в 99%. И наоборот, в 99 % случаев, чтобы "достать" иероглиф из таблицы описания иероглифов, достаточно указать три его графа. А это уже относится к возможности ускоренного ввода иероглифов. Если вы помните, средний слог по пиньиню состоит из 3,24 символов без указания тона, а с указанием тона 4,24 символа, а потом выбор из предъявленных вариантов, коих может быть... около 25 тыс. иероглифов, представленных в юникоде "озвучиваются" с помощью всего 1314 слогов китайского языка, в среднем каждому слогу соответствует 19,3 иероглифа; только 57 слогов записываются одним иероглифом, а слогу "и" 4-го тона ("yì") в юникоде соответствует ...337 иероглифов. А здесь только три графа, и вы получаете готовенький иероглиф без всякой головной боли последующего выбора. И это еще не все.

    Было замечено, что выборка иероглифов по fsl-алгоритму зачастую "срабатывает" раньше, после ввода только двух графов: первого и второго или первого и последнего, - т.е. и здесь присутствует информационная избыточность, которая может быть устранена. На основе "раннего срабатывания" fsl-алгоритма для каждого иероглифа, после обязательной проверки на уникальность, была выявлена минимальная последовательность графов, которая сохраняет взаимно-однозначное соответствие с соответствующим иероглифом, его маркер. Поскольку, в большинстве случаев fsl-алгоритм срабатывает максимально на трех графах, размер маркеров также не превышает трех графов. Для вышеупомянутых иероглифов, которые fsl-алгоритмом идентифицируются только по четырем графам, также удалось сформировать маркеры из трех графов. Таким образом, для всех иероглифов рассматриваемого множества были сформированы маркеры размером не более трех графов, что позволило организовать ввод иероглифов данного множества с помощью не более чем трех манипуляций. Стоит обратить внимание на то, что маркеры всех иероглифов в первой позиции всегда включают первый граф общей последовательности графов. Второй граф маркера это или второй или последний граф полной последовательности. Третий граф маркера это почти всегда последний граф полной последовательности, и только у девяти иероглифов третий граф маркера есть третий граф полной последовательности таковых. И уж совсем "зловредный" единственный иероглиф 器, который описывается следующей последовательностью графов 口口犬口口, имеет маркер 犬口. Столкнувшись с такими "нестандартными" иероглифами, уверяю Вас, Вы быстро и без проблем запомните их, потому что эти маркеры выбирались по принципу естественности и наглядности как в последнем примере, который визуально строится от графа  犬, окруженного четырьмя 口. И, не смотря на кажущееся несоответствие формальным правилам декомпозиции и выделения маркера, этот иероглиф и его маркер наиболее ярко демонстрируют естественную логику построения графического образа. Именно поэтому запоминание маркеров для каждого иероглифа не составляет никакого труда.

    Как результат всех этих экзерсисов с иероглифами стоит отметить, что 72,5% всех иероглифов имеют маркеры, состоящие из одного или двух графов. А это означает, что в процессе ввода 72,5% иероглифов однозначно идентифицируются после указания только двух графов. Если же учесть частоту употребления этих иероглифов в реальных текстах, то оказывается, что в 80% случаев при вводе среднестатистического текста для однозначной идентификации иероглифа достаточно указания лишь двух графов.

    Все это можно увидеть собственными глазами здесь и проверить собственными руками здесь.

    Программные продукты, которые позволят Вам использовать все преимущества композиционного ввода подробно описаны здесь, а ссылку на скачивание их можно найти в разделе Загрузки.

________
1. Понятно, что чем меньше этот набор, тем проще его запомнить, что, впрочем, не обязательно делать "буквально намертво", как это нужно делать в схеме фонетического ввода: "zhao1" = 着 (а так же 招 и 朝, и еще 20 иероглифов в наборе UNICODE) или наоборот. Небольшой набор графов можно постоянно держать на экране как некую "подсказку", особенно полезную в "распознавании образов", а задача "угадывания" иероглифов как раз и есть задача распознавания образов. Кстати, именно поэтому и много проще "узнать" иероглиф, чем его воспроизвести тем или иным способом.
2. Поэтому названия графов - есть только их "идентификаторы" для запоминания и проверки его результатов. Если вы уже научены связывать "ключ" с неким "понятием", воля Ваша, мнемоника, как и религия, - личное дело граждан. Вы вольны использовать традиционные мнемоники или изобрести свою собственную, в данном контексте это не важно.


На титульную страницу К началу страницы 11 Декабря, №4