1.5. Семантика баз данных[1]

 

Как уже отмечалось, база данных не может рассматриваться в отрыве от назначения и особенностей ее использования для решения практических задач, причем обязательно в составе более крупных информационных или технологических автоматизированных систем. Задачи таких систем – это не только планирование и управление предприятием, но и интеграция разработки и сопровождения основных и технологических объектов и процессов, диагностика, мониторинг, моделирование. Соответственно, задачи и назначение БД, как системы хранящей информацию обо всех этих составляющих – обеспечить информационную поддержку этих процессов.

База данных – это отражение реальной предметной области, «действующая» информационная модель[2], которая, обеспечивая субъект информацией для принятия решения, позволяет, в том числе, и управлять объектами и процессами в отражаемой предметной области (ПрО). Такая функциональная направленность (и, естественно, предполагающая достижение эффективности в первую очередь за счет использования именно БД) обуславливает и обратную зависимость: объекты, процессы и события ПрО выделяются таким образом, чтобы было возможно их представление в виде системы взаимосвязанных данных и процессов, удобных для их последующей (человеко-машинной!) обработки.

В каком-то смысле базу данных можно сравнить с сообщением о состоянии предметной области, воспринимаемым некоторым субъектом, задачей которого и является преобразование объектов этой ПрО, причем в своей деятельности субъект руководствуется информацией извлекаемой именно из этого «сообщения». Схема этого соотношения, приведенная на рис. 1.4, иллюстрирует еще и то, что система, преобразующая объект, принципиально является комплексной (состоящей, по крайней мере, из двух компонент, работающих с объектами разной природы: субъект преобразования взаимодействует преимущественно с материальными объектами, а БД – с информационными).

 

 

 

 

 

 

 

 

 

 

 


В общем случае, поскольку для многокомпонентных систем с многоуровневым представлением семантики, эффективность обработки достигается через специализированность представления объектов или процессов (а для вычислительных систем - как среды хранения информации - с единственно возможной двоичной формой представления) и, в первую очередь, путем сведения представления множества (локально) обрабатываемых объектов к однородности природы и формы их представления, то для реализации эффективного межуровнего взаимодействия (на каждом из которых объекты представлены в виде, наиболее адекватном функциональным средствам этого уровня) любая величина должна быть преобразована в соответствии с «контекстом» этого уровня для получения такого ее представления, которое будет «значимо» для воспринимающего уровня, т.е. может быть обработано средствами этого уровня.

Здесь «контекст» - это декларативное или, иногда, процедурное определение способа использования элементарных составляющих величины для получения значения. Например, порядок использования байтов при преобразовании вещественного числа, представленного в двоичной форме, в символьный формат.

Соотношение понятий «величина», «контекст» и «значение» приведено на рис. 1.5. Здесь значение, получаемое на первом уровне, на следующем рассматривается в свою очередь как величина,  которая будет интерпретироваться в соответствии с контекстом своего уровня[3].

 

 

 

 

 

 

 

 

 

 

 

 


Рис. 1.5. Соотношение понятий «величина», «контекст» и «значение»

 

Таким образом, можно сказать, что значение в общем случае определяется парой <контекст, величина>. Причем, поскольку контекст и величина имеют разную природу, они должны быть представлены в вычислительной среде самостоятельными, скорее всего, разнотипными объектами.

 

Такое, хотя и упрощенное, представление БД как средства информационных коммуникаций, позволяет тем не менее увидеть взаимосвязь вида информации (способа реализации смысла) с формой ее представления и особенностью ее использования.

В этом смысле (с точки зрения способа представления и, соответственно, восприятия) в отдельный класс можно выделить фактографическую информацию: такое представление реально существующих событий и явлений, когда они могут быть описаны как факты, задаваемые парой  <имя, значение>,  где  имя – знак, уникально определяющий (идентифицирующий) факт в заданной предметной области, и обычно не нуждающийся в явном определении или доопределении его существа; а значение – характеристика, задающая одно из множества возможных состояний.

Т.е., здесь факт (его значение) задается величиной, например, числовой для физически измеримых параметров, в том числе и логическими величинами «истина» / «ложь» для указания свершилось событие или нет[4].

Можно сказать, что особенностью фактографической информации является практическая очевидность (минимальная неопределенность, не требующая использования сложных или нечетких процедур) идентификации и интерпретации «факта», как его имени, так и состояния. Т.е., контекст в этом случае в достаточной степени определяется  однозначно понимаемым объявлением о назначении базы данных и таким именованием полей данных, когда в качестве имени используется общепринятое, не зависящее от прикладных задач, имя свойства (и таким образом определяются характеристические признаки). Такая ситуация предопределяет для пользователя возможность адекватного восприятия содержания: способ интерпретации  данных в этом случае практически не может быть неоднозначным, причем для пользователя определение способа происходит неявно (не требует от него явных действий для определения и использования контекста).  Это, с одной стороны, позволяет свести представление предметной области к точной теоретико-множественной модели, а с другой – обуславливает возможность непосредственного использования данных в задачах обработки (на уровне прикладных программ) для генерации новой информации без участия субъекта (человека), внешнего по отношению к машинной среде, обеспечивающего определение и использование контекста. Например, OLAP-технологии баз данных, позволяющие строить на основе множества данных, количественно характеризующих состояние объектов предметной области и представленных обычно регулярными таблицами, новые значения, отражающими это состояние на ином качественном уровне, например интегральные показатели, диаграммы, графики и т.д.

 

Однако большинство задач, решаемых человеком, не могут быть сведены к «фактографическому» представлению и описываются (и, соответственно, представляются в машинной среде) средствами естественного или специализированного языков, оперирующих лингвистическими переменными, значение которых может зависеть не только от контекста предметной области, но также и от контекста ближайшего окружения – значения соседних переменных. Причем, появление нового смысла (факта) не обязательно приводит к появлению новой переменной: новый факт представляется с помощью уже существующих переменных. Например, словесные определения философских или географических понятий.

В отличие от ранее рассмотренного фактографического представления, для вербальной формы представления факта (выражениями языка с использованием лингвистических переменных) характерно то, что для задания имени, значения и контекста может использоваться единый способ и средства – лингвистические переменные одного и того же языка. Например, описание весовых свойств может быть представлено несколькими, но имеющих один смысл, вариантами предложений: «Чугунная заготовка весом 29 килограмм» или «Чугунная заготовка имеет свойство m = 29, где m – вес в килограммах».

Автоматическое приведение такого рода представлений к очевидной наилучшей для этого случая табличной форме, потребовало бы применения трудно реализуемых процедур морфологического и семантического анализа. Но, с другой стороны, выделение смысла (и генерация новой информации) обычно производится человеком, сознание которого (как среда преобразования) ориентировано именно на обработку лингвистических переменных.

Рассматривая процесс автоматизированной генерации новой информации (рис. 1.6), где в качестве источника исходных данных используются БД, нужно сказать, что отбор и обработка должны быть выделены в отдельные процессы, т.к. с точки зрения общей (суммарной) эффективности один из них (обычно поиск) должен быть опосредованным - оценка полезности найденной информации производится обычно человеком, т.к. сознание человека - внешняя по отношению к машине среда, работает со слабоструктурированной информацией эффективнее машин.

 

 

 

 

 

 

 

 

 

 

 


Рис. 1.6. Схема процесса автоматизированного решения задач

 

Случаи, когда информация представляется в форме не адекватной архитектуре Фон-Неймановских машин, могут быть обусловлены разными факторами. Рассмотрим следующие случаи.

1. Хорошо структурированная информация представляется в графическом или специальном формате. Например, структурные химические формулы, конструкторская документация и т.д. В этом случае для автоматической обработки требуются узко специализированные средства, что приводит к общей не унифицированности представления семантических элементов (например, графических примитивов) на уровне данных.

2. Информация точная по содержанию, но вариантно представляемая по форме. Например, описание в текстовом виде численно задаваемых параметров изделия. Лингвистические переменные в этом случае имеют точное значение, однако построение универсальной процедуры автоматического выделения факта из текста трудоемко и потому нецелесообразно.

3. Слабоструктурированная информация, обычно представляемая в текстовой форме. Например учебная или научная публикация, где новые понятия строятся на основании ранее определенных. В этом случае значения лингвистических переменных могут принимать новые, ранее не определенные значения, которые определяются контекстом - ближним (словосочетания) или общим (темой сообщения).

 

Возвращаясь к процедуре поиска, как важнейшей составляющей использования баз данных, еще раз отметим, что критерий отбора должен содержать не только величину (например, слово), но и контекст.

В реальных системах поиск документальной информации[5], представленной в текстовой форме, производится по вторичным документам – специально создаваемым поисковым образам точно идентифицирующим сам документ как единицу хранения, и приблизительно, в краткой форме путем перечисления основных понятий, отражающий смысловое содержание. Такой подход позволяет построить процедуры поиска на основе теоретико-множественной модели с точной логикой отбора по критерию наличия заданного сочетания терминов запроса в списке терминов поискового образа. Однако контекст использования терминов должен быть доопределен отдельно – либо во время поиска, например указанием тематической области, либо после отбора из базы – во время ознакомления человека с содержанием найденного.

Определение контекста предметной области в целом осуществляется с помощью тезаурусов терминологических систем, фиксирующих с помощью родо-видовых и других отношений роль и семантику дескрипторов – выделенных терминов, которые используются для формирования поисковых образов документов.

Для доопределения смысла термина в составе поискового образа документа в первых поколениях автоматизированных информационных систем применялись специальные указатели роли, однако их использование было трудоемко и требовало специальной подготовки пользователя, поэтому в современных системах не применяется.

 

Другой важный фактор, влияющий на эффективность работы человека с информацией это форма хранения и представления – структура и оформление документа. Это особенно заметно при работе с объемными полнотекстовыми документами, причем иногда это определяется на уровне машинного формата (например, DOC, PDF, HTML и т.д.), от выбора которого зависит возможность дальнейшей обработки.

В том случае, когда для хранения информации используются базы данных, структура документов может быть определена двумя путями[6]:

1)    так же как и для фактографических БД, заданием схемы – последовательности именованных типизированных полей данных;

2)    контекстным определением – использованием специализированных языков разметки (например, HTML или XML), задающим индивидуальные особенности представления материала каждого документа.

 

Использование встраиваемых определений структуры позволяет ввести «самоопределяемые» форматы представления документов. Это обеспечивает практически неограниченную гибкость при организации хранения коллекций разнородных документов, однако создает проблемы семантические проблемы согласованного использования материала (из-за возможности различной интерпретации определений), что в свою очередь требует создания доступного всем пользователям репозитария метаинформации – описаний природы и способов представления информации.

 

 

К оглавлению

Назад к разделу "1.4.1. Типология баз данных с точки зрения информационных процессов"

Вперед к разделу "1.6. Типология моделей"



[1] Материал этого и следующего параграфов является не только введением в проблематику проектирования и эксплуатации баз данных, но и, может быть, несколько опережающим обобщением того, что будет представлено в дальнейших главах.

[2] Модель – лишь в том смысле, что она – представление, описание на уровне данных только некоторых аспектов, и только некоторой части реального мира, и поэтому не может быть тождественна реальным объектам. Но в тоже время БД и сама является частью реального мира.

[3] Соотношение понятий «величина» и «значение» аналогично соотношению понятий «данные» и «информация». Информация - это значимые для приемника данные, например изменяющие его внутреннее состояние.

[4] И, следует отметить, что такая форма в наибольшей степени соответствует машинным формам представления информации.

[5] Это соответствует третьему из вышеперечисленных случаев. Два первых мы не рассматриваем, т.к. в этих случаях используются специализированные системы.

[6] Для реляционной СУБД MSSQLServer 2000 реализован импорт/экспорт документов, представленных в XML-формате, в том числе с использованием схем сопоставления, определяющих соотношение элементов XDR-схем таблицам, а атрибутов – столбцам.