Методологические вопросы унификации наименований и создания классификатора показателей |
02.06.2009 г. | ||||||||
УДК: 614.2
Репкина С.А., Леонов С.А.
Methodoloical problems of unification of names and development of
indicators classifier.
Ключевые слова: единое информационное пространство, среда общения, идентификация, лингвистика, классификаторы Key words: single information space, interaction environment, identification, linguistics, classifiers. Существующие проекты Концепций создания Единого информационного пространства (ЕИП) отрасли ориентированы в основном на развитие информационных технологий и глобальных телекоммуникационных сетей. Проблема создания единой информационной среды общения, как самостоятельного общесистемного элемента информационного пространства, ориентированного на создание единого информационного ресурса отрасли и новых форм общения в среде пользователей (включая их взаимодействие с ЭВМ), адекватных по уровню своего развития проектируемым техническим средствам информационных технологий, в данных проектах практически не выделяется и не рассматривается [1-6, 12-15]. Понятие Единого информационного пространства многоаспектно. Прежде всего, это создание:
Решение этих задач потребует разработки принципиально новых информационных технологии. Действующие технологии до сих пор осуществляют обработку только одной, самой крупной единицы информации – документа. По сути своей они являются технологиями, самого низкого уровня развития, поскольку:
В принципе нестабильность отображения показателя, «упакованного» в формат документа, для этих технологий вполне правомерна, поскольку сам документ, как единица информации, не обладает свойством стабильности. Состав показателей, входящих в него, как правило, отражает текущие интересы пользователей, поэтому наборы показателей и конфигурация форматов документов подвержены постоянно текущим изменениям.
В настоящее время, когда требования пользователей возросли и значительно расширились, потребность в повышении уровня разрешающей способности становится все более очевидной. Обеспечить это повышение вполне возможно за счет разработки технологий способных вести обработку двух, равнозначных и взаимосвязанных единиц информации – документов и единичных показателей [11]. Разработка таких технологий – это принципиально новая постановка задачи, направленная на увеличение числа общесистемных элементов в инфраструктуре информационного пространства отрасли, требующая координальных изменений в области организации технологического процесса обработки информации и прикладного программного обеспечения. В информационном пространстве отрасли предстоит создать принципиально новый механизм, способный обеспечить формирование принципиально новых форм отображения основной единицы информации (единичного показателя) и, соответственно, ориентированный на создание условий повышенной комфортности для человека при наиболее полном использовании возможностей современных технических средств. Переход на технологии обработки наиболее «мелкой» и наиболее стабильной единицы информации – единичного показателя, освобожденного от «упаковки» (формы документа) и способного самостоятельно перемещаться в информационном пространстве, потребует разработки новых форм идентификации. В том числе, и решения застаревшей проблемы унификации наименований показателей. В частности, решения сложнейших лингвистических проблем, связанных анализом семантики наименований показателей, их соответствия алгоритмам расчета, систематизации и нормализации различных текстовых форм отображения их на естественном языке пользователя, а также созданием типовых форм идентификации на специальном информационном языке. То есть потребуется создание механизмов формирования текстовых и кодовых идентификаторов, позволяющих проводить машинную обработку показателей и осуществлять общение пользователей с машиной и между собой. Кроме того, потребуется создание специальных форм организации множества идентификаторов и наименований показателей, прошедших унификацию, представляющих инструмент пользователя, необходимый ему для работы в среде общения. Наиболее вероятно, что таким инструментом должен стать классификатор наименований показателей. Фактически в рамках новой среды общения предстоит создать:
Следует отметить, что проблему создания подобного информационного языка, способного обеспечивать общения пользователя с машиной на языке приближенном к естественному языку, пытались решить еще в период создания первых информационных технологий, в виде «Единой системы классификации и кодирования» (ЕСКК). В свое время в рамках этой системы велись работы по созданию «Общесоюзного классификатора технико-экономических показателей» (ОКТЭСП), который по сути своей представлял синтаксическую часть информационного языка, содержащую правила формирования идентификаторов наименований показателей [8-10]. Вся оставшаяся совокупность самых разнообразных классификаторов и списков унифицированных терминов, входящая в ЕСКК, должна была составить вторую, часть структуры этого языка - морфологическую. Таким образом, классификатор наименований показателей, созданный с помощью этого языка должен был стать сводом нормализованных наименований показателей отрасли (страны), и механизмом, обеспечивающим:
Однако, в силу ряда объективно существовавших тогда причин, роль механизма стандартизации терминологии была отдана классификатору унифицированных форм документов (ОКУД), а разработка ОКТЭСП в виду его невостребованности, была отложена на десятилетия. Это говорит о том, что идея создания ОКТЭСП значительно опережала свое время. Сегодня необходимость разработки такого классификатора становится все более очевидной, поскольку требования, к регламентации терминологии используемой в условиях формирования Единого информационного пространства отрасли, становятся все более настоятельными [2-3, 12-15]. Экспресс-анализ методических основ разработки ОКТЭСП, разработанных в прошлые годы, показал, что основные принципы построения классификатора, заложенные в те годы, не потеряли своей актуальности и на сегодняшний день. В данной работе рассматриваются главные аспекты информационного языка, касающиеся формирования его синтаксических и морфологических составляющих, в том числе и формирования его словарного фонда. Основное внимание уделяется:
Процессы унификации наименований показателей, формирования их идентификаторов и установление связи с классификаторами Отраслевого фонда классификаторов – это один непрерывный процесс, поэтому описание используемых методов будет излагаться одновременно. Объектом унификации является наименование показателя. Показатель, в общепринятом понимании, есть ни что иное, как отображения любого свойства объекта средствами естественного языка (ЕЯ). Структурно он состоит из двух компонент. Первой компонентой является наименование показателя, несущее смысловое описание свойства объекта и имеющее текстовую форму отображения. Второй, мера этого свойства, которая заключена в смысловом содержании наименования показателя. Обычно – это либо цифра, либо логическое выражение. Предлагаемый метод унификации показателей и формирования идентификаторов основан на структурировании наименований показателей, на отдельные элементы – морфемы и унификации их в структурах родственных им морфем, т. е. классификаторах. Поскольку все искусственные языки по своей природе, являются знаковыми и формализованными, то в дальнейшем в рамках искусственного языка все морфемы естественного языка, прошедшие унификацию, будут обозначены как «элементы – признаки» или просто «признаки». Затем из унифицированных признаков с помощью специальных алгоритмов формируются идентификаторы, основное отличие которых от наименований показателей, состоит в том, что выделенные морфемы будут заменены унифицированными терминами – признаками. А все многообразие синтаксических отношений, существующее между морфемами, как членами предложений, составленных в соответствии с нормами ЕЯ, будет заменено одним логическим отношением, отражающим порядок их «следования» в идентификаторе наименования показателя. Основы такого метода структурирования наименований показателей были заложены еще в период становления первых информационных технологий. В частности, из состава наименований показателей был выделен ряд признаков, с помощью которых, и по сей день, осуществляется коммуникация информационных потоков, а также агрегирование (дезагрегирование) информации при прохождении ее по разным уровням структуры отрасли. В основном это признаки, которые в большей своей части принято располагать в «шапках» форм документов. Они были востребованы первой технологией и, соответственно, унифицированы, классифицированы и организованы в систему Общесоюзных и отраслевых классификаторов. Однако, значительная часть морфем, при помощи которых составляются описания свойств объекта, в силу прекращения работ по созданию ОКТЭСП, процессу унификации и нормализации не подвергалась. Именно эта часть морфем в настоящее время представляет наибольший интерес, поскольку связана с решением застаревшей проблемы нормализации естественного языка, т. е. очищением терминологии, используемой в отрасли от синонимии (омонимии), терминов и профессиональных жаргонов, искажающих смысловое содержание основных единиц информации. Ее решение является одним из немаловажных факторов, способствующих формированию единства информационного пространства отрасли и, соответственно, увеличению разрешающей способности его информационного ресурса. Главные принципы унификации наименований показателей:
Первым критерием унификации должен быть критерий семантической (смысловой) близости (КСБ) наименований показателей. Он позволяет объединить близкие по смысловому содержанию наименования в семейства, а внутри них провести сопоставительный анализ между членами каждого семейства на их уникальность (неповторимость). КСБ дает возможность одновременно установить тождество (соответствие) между наименованием показателя и его смысловым содержанием. Последняя процедура связана с анализом расчетных алгоритмов и методик измерения (расчета) показателей. Формально основной классификационный признак выражается дескриптором - одно, два слова естественного языка, смысловое значение которых на самом высоком уровне обобщения с достаточной степенью однозначности отражает вложенный в них экономический смысл. Например, "потребность", "численность", "производительность" и т. д. По наличию дескриптора в наименовании показателя можно судить о принадлежности последнего к тому или иному семейству. Он же является именем всего семейства показателей (Рис.1).
Рис.1. Фрагмент формирования и унификации показателей семейства "потребность"
Выбор дескрипторов носит вероятностный характер, т.е. выделение его осуществляется так же, как в информационно-поисковых системах библиотечного (дескрипторного) типа. В практике формирования семейства показателей довольно часты случаи, когда в одном наименовании можно выделить несколько дескрипторов. Например, "Остатки товарной продукции на конец ... года в ценах ... по предприятию ... в единицах измерения ...". Здесь дескрипторов три - "Остатки", "товарная продукция" и "продукция". Таким образом, одно наименование может входить в неограниченное множество семейств и, соответственно, в каждом из них проходить унификацию. На наш взгляд, многократная унификация является желательной, поскольку от этого только повышается ее качество. Вторыми критерием, положенным в основу методики сопоставительного анализа членов одного семейства показателей, является критерий однородности синтаксических структур (КОСС) показателей одного семейства. Он позволяет установить и зафиксировать единый для данного семейства порядок расположения признаков (морфем) в наименованиях показателей одного семейства (Рис. 1). Этот момент весьма важен, поскольку отражает процедуру замены синтаксиса ЕЯ синтаксисом формализованного языка и, соответственно переход наименования показателя в его текстовой идентификатор. Применение КОСС дает возможность отказаться от правил фиксации синтаксических отношений между членами предложений, свойственных текстам ЕЯ, поскольку ранжированный текст косвенно содержит в себе эти отношения. Ранжировка текста осуществляется достаточно легко, поскольку синтаксический строй наименований не отличается большим разнообразием. Для целей унификации синтаксических структур применен широко известный в практике метод таксономии. В данной предметной области он позволяет осуществить сопоставление и унификацию текстов, как целостной структуры через сопоставление его частей, т. е. его элементов-признаков, без нарушения семантической (смысловой) и синтаксической целостности исходного текста. Последнее обстоятельство весьма важно для построения классификаторов, формирующих словарный фонд информационного языка, т. е. его морфологическую часть. Поскольку каждый признак, участвующий в формировании каждого текстового идентификатора, помимо процедуры унификации в рамках своего семейства должен пройти дополнительную унификацию в списках родственных ему терминов, т. е. классификаторах. Таким образом, для проведения сопоставительного анализа наименований одного семейства необходимо:
Соблюдение принципа открытого множества при разработке метода унификации, ориентировано на создание открытой системы показателей, способной к постоянно текущему обновлению состава показателей в информационном ресурсе информационного пространства отрасли. Формирование структуры кодовых идентификаторов является логическим завершением процесса унификации наименований показателей. В основу метода формирования положен принцип регистрации элементов-признаков с использованием топологии графа "дерево". Кодовая запись в данном случае несет информацию о месте расположения унифицированного наименования в системе унификации. Она получается сжатой (в пределах 9-12 десятичных знаков) и постоянной по своей длине. Структуру графа составляют: «корень» графа и зоны его" прямых" и "обращенных" ветвей (рис. 2). Узлами графа условно обозначены элементы-признаки (i, r ,..q), на которые сегментированы наименования показателей. Среди элементов- признаков выделяется главный признак. На поле графа он обозначен, как «корень» графа. В структуре классификатора его понятие отождествляется с понятием рубрики, поскольку он выполняет функцию объединения множества семантически близких показателей в одно семейство. В структуре кодовой записи он является старшим идентификационным признаком и именем целого семейства показателей.
Индексы t, г, n... и т.д., показанные на графе, являются условными обозначениями имен классификаторов или списков унифицированных терминов, в которых расположены значения этих признаков. Например, имена предприятий в классификаторе предприятий, или наименование единиц измерения в классификаторе единиц измерения и т.д. Количество значений признаков в каждом классификаторе может быть практически неограниченным. При формировании идентификаторов показателей вместо признака, обозначающего имя классификатора, может быть поставлено любое значение, взятое из этого классификатора. Понятие зоны "обращенных" ветвей графа в структуре классификатора отождествляется с понятием подрубрик, поскольку элементы-признаки этой зоны, взятые вместе с корнем, распределяют (классифицируют) множество (семейство) показателей на подмножества и становятся именами соответствующих подмножеств. Например, Уточненная потребность; Заявленная потребность; Неудовлетворенная потребность и т. д. Зона "прямых" ветвей состоит из множества наборов элементов-признаков. Каждый набор является частью унифицированного шаблона идентификатора наименования, в котором зафиксирована структура унифицированного наименования показателя в соответствии с правилами информационного языка. Число элементов-признаков, включаемых в ветви обоих зон графа, их разнообразие и последовательность практически не ограничены, т.е. на поле графа может быть введено любое наименование показателя любого уровня обобщения и любого количества показателей. Что является проявлением принципа открытости выбранного метода унификации. При формировании ветвей графа необходимо выдерживать первоначальную ранжировку элементов-признаков, т.е. привязывая синтаксическую структуру текста к топологии графа, нельзя нарушать смыслового содержания фразы путем перемены мест расположения признаков. Процедуры унификации и регистрации (кодирования) осуществляются практически одновременно. Смысл унификации заключается в сопоставлении ветвей графа одного семейства, т.е. сопоставлению синтаксических структур записей наименований показателей. Наложение осуществляется последовательно по зонам графа, для чего предварительно аналитическая запись условно расчленяется на три части. В зонах не должно быть дублирующих ветвей, каждая ветвь графа должна быть, с одной стороны, уникальной, с другой - общей для многих наименований одного семейства. Уникальные ветви графа нумеруются. Нумерация в каждой зоне независимая, порядковая и начинается с единицы. Кодирование унифицированных текстов (идентификаторов) производится путем объединения порядковых номеров соответственно корня, "обращенных" и "прямых" ветвей графа (рис. 3). Схема расположения группировок кода* классификатора на поле графа "дерево" приведена на рис. 4. Все группировки кода являются фасетами, емкость которых по предварительной оценке составляет 3 десятичных знака. Три первые группировки указывают на место расположения наименования в системе унификации, четвертая предназначена для учета тех наименований, которые необходимо представить фактографическим текстом, т.е. единичным наименованием показателя Использование в предлагаемой методике графа "дерево" для целей унификации и кодирования позволяет получать в составе каждого семейства унифицированные шаблоны для идентификаторов единичных наименований показателей. Подстановкой в шаблоны различных значений признаков из ряда классификаторов, зафиксированных в этих шаблонах, можно будет получать неограниченное множество стандартных идентификаторов единичных наименований показателей. Особенностью предложенной методики является то, что выбранная в ней схема унификации и формирования текстовых и кодовых идентификаторов позволяет достигнуть максимально возможного уровня унификации.
Рис. 4 Схема расположения трех старших группировок кода на поле графа «дерево»
Классификатор ОКТЭСП, составленный по изложенной выше методике должен представлять совокупность унифицированных шаблонов текстовых и кодовых идентификаторов, с помощью которых любой пользователь информационного пространства отрасли может составить унифицированный текстовой идентификатор необходимого ему показателя. Как эксплуатационный инструмент пользователя, он должен быть машиноориентированным документом, пользование которым возможно только с терминала пользователя, причем только на формализованном естественном языке. В структуре базы, где хранится тело классификатора, должна быть создана система адресной связи с теми численными значениями, которые хранятся в текущих базах данных, и, соответственно, с документами, если численные значения показателей хранятся или перемещаются в информационном пространстве упакованными в их формат. Все формы документов, имеющие право хождения в отрасли должны составляться с помощью технических средств и с использованием идентификаторов показателей или их шаблонов, размещенных в классификаторе ОКТЭСП, для чего должен быть создан специальный механизм (программа) машинного формирования форм документов, позволяющего пользователю их создавать. Пользователю должна быть предоставлена возможность самостоятельно отбора текстовых идентификаторов для необходимой ему совокупности показателей и размещать их в соответствующие форматы документов, а также придавать, сформированной форме документа статус любой значимости, исходя из приоритета решаемых им задач. Любая форма документа, составленная в соответствии с этим требованием, будет являться унифицированной. Классификатор ОКТЭСП и вся инфраструктура, возникающая вокруг него, по сути своей являются новым общесистемным элементом информационного пространства отрасли, имя которому – «среда общения пользователя». Появление этого элемента означает смену поколений в информационных технологиях и начало становления Единого информационного пространства отрасли. Список литературы
Просмотров: 20469
Добавить комментарий
|
||||||||
Последнее обновление ( 07.07.2009 г. ) |
След. » |
---|