Главная  | О журнале  | Авторы  | Новости  | Конкурсы  | Научные мероприятия  | Вопросы / Ответы

Виды информативного свертывания и способы раскрытия содержания текстов

К содержанию номера журнала: Вестник КАСУ №2 - 2010

Автор: Ларина М.В.

Термин «свертывание» имеет широкое распространение в различных областях знания – философии, математической теории, физике, лингвистике, информатике, библиографоведении. Во многих из этих областей он нередко имеет различное значение, но во всех случаях обозначает ограничение, уменьшение определенных объектов или величин, выделение и концентрацию каких-то признаков, свойств.

В науке со «свертками» мы сталкиваемся постоянно: в качестве их выступают законы, теоремы, постулаты, положения, формулы, концентрирующие в себе наиболее существенное, необходимое, являющееся результатом обобщения, «свертывания» огромного фактического материала. Таким образом, свертывание в науке является отражением процессов и явлений, наблюдаемых в самой природе, обществе, мышлении.

В сфере информационных коммуникаций с проблемой свертывания человечество столкнулось на самых ранних этапах своей цивилизации, когда впервые задумалось над тем, как коротко и ясно выражать свои мысли. Впервые термин «свертывание» был введен в научный оборот Никола Кузанским (1401 – 1464), который понимал под научным свертыванием не просто уменьшение объема, а операцию получения «содержательно насыщенного знания». В области формальных способов научных коммуникаций проблема свертывания возникла также довольно давно с появлением первых хранилищ памятников письменности (библиотек и архивов), и связано это было со стремлением найти наиболее адекватные формы отражения состава фондов, хранимых в них источников информации.

Несмотря на более чем двухтысячелетнюю историю, задача раскрытия содержания массивов информации не только не потеряла статуса проблемы, но и приобрела особую остроту, став ведущим направлением в общей проблематике теории научных коммуникаций.

Для сферы общения, в качестве основного средства которой выступает естественный язык, характерны две тенденции – стремление к избыточности (развертыванию), обеспечивающее надежность связи и восприятия сообщений, и стремление к недостаточности, экономии речевых средств (свертыванию), обеспечивающее повышение «пропускной способности» информационных каналов.

По мнению Л.М. Веккера, стремление к краткости выражения мыслей связано с «общим законом экономии сил», в основе которого лежит представление о том, что человеческая деятельность носит целенаправленный характер и предполагает достижение конечной цели с наименьшей затратой усилий. Отсюда стремление к речевым штампам, аббревиатурам метафоричности, эллипсности, терминологичности и другим разновидностям лексического свертывания, в том числе и перевод в иную знаковую систему. Таким образом, при широком понимании проблемы языковой экономии экономным считается такое средство, которое наилучшим образом служит целям языкового общения и сокращает процесс взаимопонимания.

Свертывание в сфере информационных коммуникаций рассматривается как информационное свертывание, которое сводится к определению и использованию необходимого и достаточного объема речевых средств при описании некоторой (объективной или субъективной ситуации), обеспечивающих оптимальные условия общения, т.е. понимание сообщения без избыточности. В основе процедуры информационного свертывания лежит психолингвистический механизм обратной связи, который в многоуровневой цепочке текстопорождения обеспечивает постоянную корреляцию между реальным результатом речевой деятельности и смысловым образом, порожденным на этапе мотивации этой деятельности. Этот механизм определяет необходимый и достаточный набор лексических средств и синтаксических конструкций, который использует отправитель информации, чтобы обеспечить оптимальные условия коммуникации. Однако для того, чтобы коррелирующий механизм смог «сработать», отправитель информации должен достаточно четко представлять себе степень организации тезауруса конкретного или потенциального потребителя информации. Это знание позволяет отправителю информации определять при формулировании сообщения, прежде всего, тот необходимый уровень эллипсности, который он может и должен допустить, чтобы правильно быть понятым, т.е. суметь на основе своего тезауруса компенсировать допущенную в речи отправителя эллипсность, самостоятельно «достроить» смысловой образ отправителя информации, которым он руководствовался при порождении сообщения. Отсюда выражение «обеспечить оптимальные условия общения» означает порождение сообщений на определенном уровне свертывания с учетом степени организации тезаурусов потенциальных потребителей информации.

Информационное свертывание может быть семантическим и лексическим. Первое связано с изменением информативности сообщения, второе оставляет смысл сообщения без изменений, преобразует его знаковую форму.

Семантическое свертывание в языке – это стихийный процесс терминообразования, в ходе которого возникают понятия более краткие, чем их синонимичные предшественники. Иной характер носит семантическое свертывание, связанное: 1) с изменением информативности путем понятий и целых смысловых отрезков или опущения некоторый деталей, подробностей, уточнений; 2) с изменением информативности путем перевода в иную знаковую систему понятий.

При лексическом свертывании производится преобразование знаковой формы сообщения при сохранении его информативности. В.П. Кобков различает три способа лексического свертывания: 1) опущение, при котором то или иное место в предложении, предназначенное для определенных повторяющихся или не повторяющихся в тексте языковых единиц, остается пустым, но может быть заполнено этими единицами благодаря опоре на сохраняющиеся в предложении элементы; 2) совмещение, при котором два или несколько предложений, некоторые элементы которых тождественны, накладываются друг на друга, образуя сокращенную конструкцию, где тождественный компонент употреблен только однажды, но сохраняет самостоятельные связи с нетождественными частями совмещенных предложений; 3) замещение, при котором повторяющийся или неповторяющийся отрезок текста замещается другим, более кратким, с сохранением в последнем необходимого уровня смысла первого (например, применение более кратких синонимичных вариантов).

В сфере информационного обслуживания свертывание информации рассматривается в трех его основных видах – документального обслуживания, фактографического и концептографического. Теоретической базой свертывания в этих сферах информационного обслуживания являются такие дисциплины социально - коммуникативного цикла, как библиотековедение, библиографоведение, фактография и концептография.

Свертывание в этих областях информационного обслуживания сводится преимущественно к логико-лингвистическим преобразованиям текста с целью создания вторичного документа. Так, в сфере документального обслуживания сформировался ряд, включающий такие вторичные документы, как библиографическое описание, аннотация и библиографический обзор. Основная функция этого ряда вторичных документов – ориентация потребителей в документальном потоке. Вторичные документы, выполняющие эту функцию, раскрывают форму и содержание первичных документов с той степенью полноты и деятельности, которая бы позволила, с одной стороны, достаточно точно идентифицировать документ в потоке, а с другой – потенциальному потребителю информации принять решение о целесообразности обращения к первичному документу.

Задача документов этого ряда – максимально полно отразить формальные признаки и тематическое содержание свертываемого документа на основе библиографического анализа, подразделяющегося на учетно-регистрационный и тематический анализы. Сущность учетно - регистрационного анализа сводится к фиксированию формальных признаков, заглавия и других элементов библиографического описания, тематического анализа – к описанию главных и второстепенных тем (аннотированию). Тематический анализ заключается в формулировании и представлении на необходимом уровне свертывания субъектных элементов текста. В качестве субъектных элементов текста могут выступать заглавия ко всему тексту, его разделам, абзацам и даже еще меньшим структурным единицам. Уровень свертывания определяется размерами аннотируемого документа, его структурой, жанром и целевым читательским назначением.

В сфере фактографического обслуживания сформировался ряд, включающий такие вторичные документы, как фактографические описания (справки, таблицы, статьи в справочниках, рефераты, реферативные обзоры). Основная функция этого ряда вторичных документов – ориентация потребителей информации в информационном потоке (т.е. в некоторой совокупности фактов и концепций вне связи с конкретными первичными документами).

Этот ряд вторичных документов образуется на основе фактографического анализа, сущность которого состоит в исследовании документов с целью извлечения из них фактов и концепций, релевантных читательскому назначению подготавливаемого вторичного документа. Фактографический анализ и синтез охватывают как субъектные, так и предикатные элементы текста.

Задача документов этого ряда – максимально точно отразить факто-кон-цептографическое содержание первичных документов. Степень полноты не зависит от размеров и особенностей первичного документа, а определяется преимущественно прагматическими соображениями.

Продолжая рассмотрение видов свертывания, следует остановиться также на информативном и метаинформативном свертывании. Согласно Шрейдеру, к информации относятся элементы текста, в которых отражается основное содержание текста, и приводятся оригинальные точки зрения на это содержание, к метаинформации – предложения, содержащие сведения о теме и организации данного текста, обеспечивающие доступ к собственно информации, являющиеся ключом к ее пониманию. Таким образом, «метаинформация» употребляется как обозначение информации об информации или, точнее, о способе кодирования информации. Метаинформацией в документах будут поисковые индексы, оглавление, справочный аппарат, введение, предисловие, комментарии, уточнения. В ряде случаев документ представляет собой метаинформацию о другом документе (например, библиографическое описание, аннотация). Реферат (особенно реферативные аннотации) содержит в себе как метаинформацию о другом документе, так и элементы собственно информации из этого документа.

В связи с различением информации и метаинформации, выделяются два подхода к свертыванию информации: метаинформативный и информативный. Первый предполагает создание ряда документов, основная цель которых – в той или иной степени раскрыть тему и содержание других документов. К нему относятся не только традиционные виды вторичных документов – библиографические описания, аннотации, обзоры, но и авторефераты диссертаций, предисловия и введения к книгам, программы учебных курсов, справочные аппараты изданий. Во всех этих документах, согласно терминологии Шрейдера, содержится «информация об информации». Более того, в качестве метаинформативных элементов могут выступать и отдельные фразы текста первичных документов – предваряющие, результирующие, обобщающие определенные фрагменты данного документа или его в целом.

Второй подход предполагает создание ряда документов, основная цель которых – служить непосредственным источником информации при решении определенных задач. Он может включать в себя как первичные, так и вторичные документы различного уровня свертывания, например, отчет, статья, краткие сообщения, информационный листок, рефераты типа экспресс-информация, самостоятельные фрагменты текстов, цитаты, фактографические справки, реферативные обзоры и другие документы, использование которых, как правило, не вызывает для определенной категории потребителей информации необходимости обращения к первоисточнику.

Принимая во внимание концепцию Д.И. Блюменау, представляется возможным говорить о двух видах свертывания: научном, в ходе которого порождаются новые единицы знания, и информационном, связанном с текстовыми преобразованиями. Информационное свертывание, в свою очередь, разделяется на свертывание семантическое, сопровождающееся изменением информативности текста, и лексическое, сопровождающееся преобразованиями в плане выражения без изменения плана содержания. Информационные виды свертывания используются в различных сферах информационного обслуживания при создании как первичных, так и вторичных документов. При этом можно говорить о метаинформативном и информативном свертывании как операциях, лежащих в основе подготовки вторичных документов, соответственно, в сфере документального, фактографического и концептографического обслуживания.

Кроме того, свертывание можно классифицировать и по ряду других критериев, например, по степени формализации процесса – интуитивное, алгоритмизированное (анкетное в том числе), автоматизированное, по количеству свертываемых документов (к примеру, реферат и реферативный обзор), по степени свертывания (библиографическое описание, аннотация).

Переходя к вопросу о способах раскрытия содержания текстов в процессе свертывания, следует иметь в виду, что развитие этих способов шло в двух направлениях. Одно из них предусматривало поиски более совершенных способов интеллектуального свертывания. В русле этого направления возникли анкетные методы реферирования и аннотирования, предусматривающие членение первоисточника на определенные содержательные аспекты типа: цель работы, методы и конкретные результаты, выводы, рекомендации, область применения, место и время проведения исследований. На основе такого членения предложены многочисленные аспектные сетки, как универсального и отраслевого характера, так и рассчитанные на различные типы и виды документов. В некоторых методиках, основанных на использовании аспектных сеток, указывается важность тех или иных аспектов для включения их во вторичный документ. Иными словами, были сделаны попытки создания моделей вторичных документов для различных отраслей знания. Применение анкетных методов свертывания в определенной степени повысило качество вторичных документов. Положенный в их основу принцип анализа первоисточников оказался плодотворным и для разработки более совершенных формализованных методик свертывания.

Другое направление в свертывании, развиваемое преимущественно в сфере информатики, предусматривает разработку формализованных методов анализа содержания документов. В основе этого направления лежат попытки изыскания в плане выражения текстов (в его лексике, грамматике, логической структуре) элементов, через которые можно было бы выразить план содержания данного текста, т.е. его семантику. Важность развития формализованных методов объясняется тем, что они открывают перспективы широкого внедрения в процессы аналитико-синтетической переработки информации электронно-вычислительной техники, а это дает возможность перевести некоторые виды свертывания «на рельсы машинной технологии» со свойственными ей преимуществами и недостатками.

С этой целью в информатике предлагаются более «жесткие» алгоритмы, где для каждого типа и жанра документа предлагается своя процедура свертывания. В результате достигается не только большая последовательность, но и экономичность свертывания.

Параллельно с разработкой алгоритмов, регламентирующих деятельность человека в процессах свертывания, ведется работа по автоматизации (формализации) реферирования и аннотирования. Здесь методики носят преимущественно экспериментальный характер.

Пока еще не установилась четкая классификация методов формализованного свертывания. Так, В.Е. Берзон различает следующие методы автоматического свертывания текста: статистические, позиционные, дескрипторные, анкетные, методы ассоциаций, семантические, синтаксические методы, основанные на исследовании структуры связного текста. В исчерпывающем обзоре работ американских исследователей В.П. Леонов делит совокупность приемов на статистические, логико-математические, лингвистические методы. Своеобразную классификацию методов автоматического реферирования предлагает С.И. Гиндин, который разделяет методы автоматического реферирования на статистические, индикаторные и позиционные.

Родоначальником статистических методов является Х.П. Лун, который явился основоположником автоматического реферирования. В 1958 году был получен первый машинный реферат и опубликована статья, в котором была изложена идея рассматриваемого метода. Согласно Луну, смысловое содержание реферируемого источника можно представить в виде перечня предложений, содержащих наиболее существенную информацию. Значимыми предложениями считаются те, которые содержат в своем составе «скопления» значимых для данного документа слов. Значимость слов определяется частотой их встречаемости в документе. Вскоре, однако, обнаружилось, что «скопления» слов не всегда информативны, но сама идея привлекла внимание многих исследователей, как в нашей стране, так и за рубежом, вызвала к жизни целый ряд модификаций, в которых недостатки исходного метода были в большей или меньшей степени компенсированы (методы В.А. Освалда; В. Швайсхаймера; В.А. Аграева; В.В. Бородина; Ю.В. Глебского и др.).

Сторонники позиционных методов реферирования используют в качестве диагностического признака информативные предложения, располагающиеся в начале или в конце документа, абзаца и т.п. Так, считалось, что основное содержание первичного документа будет отражать реферат, состоящий из начальных фраз всех абзацев. При этом сторонники позиционных методов пытаются теоретически обосновать семиотическую и психологическую значимость начала и конца текста.

Индикаторные методы основаны на предположении, что значимость предложений можно определять на основе некоторых элементов-индикаторов. В качестве индикаторов предлагается использовать свойства как внутренней структуры текста (синтаксические индикаторы), так и отдельных слов и словосочетаний (лексические индикаторы).

Большей популярностью среди сторонников индикаторных методов реферирования используются лексические индикаторы. Выявилось, что некоторые слова и словосочетания, входящие в предложение, достаточно четко характеризуют смысл и функцию предложения в целом, и в то же время достаточно употребительны, чтобы позволить с помощью сравнительно небольшого списка элементов обрабатывать широкий круг текстов. За рубежом индикаторный метод применен одним из первых Х.П. Эдмундсоном, в исследованиях которого использовался словарь индикаторов, включающий систему «подсловарей» – словарь поощрений, словарь клейм и словарь нехарактерных слов.

В настоящее время большинство методов автоматического реферирования включает в себя элементы различных направлений – статистического позиционного, индикаторного, и наиболее перспективным направлением автоматического реферирования является разработка специальных словарей для выявления ключевых предложений и системы семантических отношений в исходном тексте.

ЛИТЕРАТУРА

1. Кузанский Н. Сочинение в 2-х т. - М.: «Мысль», 1979, т. 1.

2. Веккер Л.М. Психические процессы. - Л. Изд-во ЛГУ, 1976, т. 2.

3. Берзон В.Е. Смысловое свертывание на основе анализа сверхфразовых связей текста. В кн: Статистика речи и автоматический анализ текста. - Л.: «Наука», 1974, С. 147-162.

4. Koblitz J. Referieren von Information squellen. Leipzig, VEB Bibliographisches Institut, 1975.

5. Кобков В.П. Замещение, опущение и совмещение как способы сжатия текста без утери информации. В кн: В помощь преподавателем иностранных языков. - Новосибирск, 1974, вып. 5, С. 49-73.

6. Шрейдер Ю.А. Информация и метаинформация. НТИ. Сер. 2, 1974, №4, С. 3-10.

7. Блюменау Д.И. Проблемы свертывания научной информации. - Л.: «Наука», 1982.

8. Авдеева А.А. Организация реферата – в формат на основе метода поаспектного реферирования. НТИ. Сер.1, 1974, №10, С. 29-34.

9. Сополов А.В., Кокорина А.П. Алгоритмический метод избирательского индексирования документов простой структуры. НТИ, Сер.2, 1974, №5, С. 11-17.

10. Берзон В.Е. Брайловский А.Б. Классификация коннекторов и диалоговые системы автоматического реферирования. НТИ, Сер. 2, 1979, №11, С. 19-23.

11. Леонов В.П. О методах автоматического реферирования (США, 1958-1974 гг.) – НТИ, Сер.2, 1975, №6, С. 16-20.

12. Гиндин С.И. Позиционные методы автоматического фрагментирования текста, их теоретико-текстовые и психолингвистические предпосылки. В кн: Семиотика и информатика. - М., ВИНИТИ, 1977, вып.9, С. 35-84.

13. Лун Х.П. «Marazzi A.S. Messenqers of the Nervous System» - Scientific American, 1957, vol. 196, №2, p. 86-94.



К содержанию номера журнала: Вестник КАСУ №2 - 2010


 © 2024 - Вестник КАСУ