Простая категория - это просто некоторый набор отдельных слов. Например, простая категория ЦВЕТА могла бы состоять из слов {красный, оранжевый, желтый, зеленый, голубой, синий, фиолетовый}.
Сложная категория состоит не просто из отдельных слов, а из набора словосочетаний. Например, чтобы идентифицировать в тексте упоминания о Черном и Средиземном море, мы могли бы составить сложную категорию {(черное, море), (средиземное, море)}.
Простые категории
Первая страница окна Формирования категорий предназначена для формирования простых категорий. Простая категория - это просто некоторый набор отдельных слов. Например, простая категория ЦВЕТА могла бы состоять из слов {красный, оранжевый, желтый, зеленый, голубой, синий, фиолетовый}.
Страница содержит:
список доступных словарей;
список, в который можно загрузить любой доступный словарь;
список доступных категорий;
список слов формируемой категории;
список категорий для выполнения логических операций;
переключатель типа логической операции (вычитания, объединения и пересечения);
флаг нормализации для указания типа обработки слов при обнаружении вхождения в категорию;
строку ручного ввода слова для добавления к категории;
кнопки <Удалить категорию>, <Выполнить операцию>, <Добавить слово>, <Очистить слова>, <Сохранить категорию>, <Помощь> и <Выход>;
статусную строку.
Простую категорию можно формировать либо вводя слово вручную, либо выбирая их из ранее созданного словаря.
Загрузка словаря и его сортировка
С
лева вверху из разворачивающегося списка можно выбрать любой доступный словарь. В списке приведены лишь те словари, которые соответствуют текущему рабочему языку. Словарь загружается сразу после выбора его имени из списка.
Словарь может быть отсортировать лексикографически (по началам слов), по окончаниям слов и по частоте. Изначально сразу аосле загрузки словарь отсортирован лексикографически. Щелчок мышью по заголовку <�Слова> приведет к тому, что словарь будет отсортирован по окончания слов. Повторный щелчок приведет вновь к лексикографической сортировке, и т.д. Чтобы отсортировать по убыванию частоты, щелкните мышью по заголовку <Частота>.
Создание категории
Чтобы создать новую категорию, необходимо нажать кнопку <Очистить слова>. Если же Вы хотите модифицировать содержание ранее созданной категории, то ее следует прежде загрузить, выбрав ее имя из разворачивающегося списка доступных категорий. Дальнейшие действия одинаковы.
Если Вы хотите добавить в категорию какое-то слово, то Вы можете либо отметить его мышкой в словаре и нажать верхнюю кнопку со стрелкой вправо, либо просто перетащить слово мышкой из словаря в список слов категории, либо ввести слово вручную и нажать кнопку <Добавить слово>.
Чтобы удалить слово из категории, нужно либо отметить его мышкой и нажать нижнюю кнопку со стрелкой влево, либо перетащить его мышкой из списка слов категории в словарь.
Слова, добавленные из словаря в категорию, из него не удаляются, а лишь отмечаются синим цветом.
Если Вам понадобится удалить все слова из окна категории, то просто нажмите кнопку <Очистить слова>. Следует особо отметить, что нажатие кнопки <Очистить слова> приводит просто к очищению списка, но никак не затрагивает содержания категории, которая хранится на диске.
Логические операции над категориями
Иногда бывает необходимо выполнить над двумя категориями те или иные логические операции:
вычесть из одной категории слова другой категории;
объединить слова двух категорий в одну;
создать категорию, состоящую из слов, входящих одновременно в две категории.
Для решения любой из этих задач загрузите в список слов формируемой категории одну из категорий. Вторую категорию выберите в списке над переключателем операций. Остается установить переключатель на нужную операцию и нажать кнопку <Выполнить операцию>. Результат будет выведен в списке слов формируемой категории.
Сохранение категории на диск
Перед тем как сохранять категорию на диск, необходимо либо установить, либо сбросить флаг нормализации слов. Это очень важный шаг, который указывает на способ обработки слов текста при сопоставлении их со словами категории. В общем случае, если Вы создаете категорию на основе какого-то созданного Вами словаря, то установка флага должна быть той же, что и при создании словаря.
Чтобы сохранить на диск созданную или измененную категорию, следует нажать кнопку <Сохранить категорию>. Вас попросят либо ввести новое имя категории, либо оставить прежнее.
Удаление категорий с диска
Для удаления категории с диска выберете ее в списке доступных категорий и нажмите кнопку <Удалить категорию>.
Кнопки <Помощь> и <Выход> не требуют особых комментариев.
В статусной строке указан загруженный словаь.
Сложные категории
Вторая страница окна Формирования категорий предназначена для формирования сложных категорий.
Страница содержит:
список доступных категорий;
окно для вывода состава категории;
окно ввода диапазона контекста;
окно ввода словарного состава контекста;
кнопки для указания типа упорядочения;
флаг нормализации для указания типа обработки слов при обнаружении вхождения в категорию;
кнопки <Удалить категорию>, <Добавить строку>, <Очистить>, <Удалить строку>, <Очистить слова>, <Сохранить категорию>, <Помощь> и <Выход>.
Сложные категории формируются исключительно вручную. Каждая сложная категория состоит из некоторого множества наборов слов. Каждый такой набор представлен в виде строки, на первом месте которой стоит целое число (диапазон контекста), затем тип упорядочения O или U, а за ним - несколько слов, разделенных запятыми.
Например:
2:U:анализ,текст
4:U:компьютерный,текст,обработка
Эта категория позволояет идентифицировать в тексте соответствующие словосочетания.
Для того, чтобы сформировать новую категорию, введите в окне ввода словарного состава контекста необходимые слова. Каждое слово вводится в отдельной строке. Затем укажите диапазон контекста и тип упорядочения слов. Очевидно, что диапазон не может быть меньше, чем количество слов контекста минус единица. Когда все будет сделано, нажмите кнопку <Добавить строку>. В левом окне состава категории появится строка контекста. Для ввода следующей строки контекста нажмите кнопку <Очистить>. Это приведет к очистке окна ввода словарного состава контекста.
Если Вам понадобится удалить одну из строк категории, то просто выделите ее мышкой и нажмите кнопку <Удалить строку>. Если понадобится очистить всю категорию, то нажмите кнопку <Очистить категорию>.
Для сохранения сформированной категории на жесткий диск нажмите кнопку <�Сохранить категорию>. Она будет сохранена в специальной директории ...\VAAL\Category в файле с тем именем, которое Вы указали, и с расширением cat.
Две оставшиеся кнопки <Помощь> и <Выход> не требуют особых комментариев.
Конфигурация категорий
Для удобства и наглядности представления результатов контент-анализа текста, категории объединяются в группы. Основаниями для этого служат различные содержательные соображения. Например, среди встроенных категорий есть группа категорий, представляющих различные акцентуации, другая группа представляет мотивы, которыми руководствуются люди в своих поступках, и т.д.
Пользователь имеет полный контроль над тем, как группировать категории. Это относится в том числе и ко встроенным категориям.
После выбора в меню системы пункта <Конфигурация категорий> появляется двустраничное диалоговое окно. Первая страница озаглавлена - Группы категорий, а вторая - Рабочие группы.
Группы категорий
На странице находятся:
список всех доступных категорий;
разворачивающийся список доступных групп;
окно содержания группы категорий;
статусную строку с указанием языка;
кнопки <Удалить группу>, <Очистить группу>, <Сохранить группу>, <Помощь> и <Выход>.
Для того, чтобы сформировать группу категорий, необходимо перенести их из списка всех доступных категорий в окно содержания группы. Для того, чтобы удалить категорию из группы, перенесите ее в список всех категорий. Чтобы удалить все категории из группы, достаточно нажать кнопку <Очистить группу>.
Чтобы изменить порядок категорий в группе, просто перетащите ее мышкой вверх или вниз.
Когда группа категорий будет сформирована, нажмите кнопку <Сохранить группу>. Вам будет предложено ввести ее имя.
Чтобы модифицировать ранее созданные группы категорий, раскройте список всех групп категорий, из которого выберите необходимую группу.
Чтобы удалить любую из групп категорий с диска, выберите в строке ввода имени группы категорий и нажмите кнопку <Удалить группу>.
Рабочие группы
На странице находятся:
список всех доступных групп категорий;
список рабочих групп категорий;
кнопки <Очистить>, <Сохранить>, <Помощь> и <Выход>.
В левом списке всех доступных групп категорий Вы отмечаете требуемые категории и переносите их в правый список рабочих групп. Убрать любую группу из списка рабочих групп Вы можете путем переноса ее в список всех доступных групп. Чтобы очистить весь список рабочих групп, нажмите на кнопку <Очистить>.
П
орядок следования рабочих групп можно изменить, перетащив их мышкой вверх или вниз.
Когда работа будет завершена, нажмите на кнопку <Сохранить>, чтобы запомнить требуемую конфигурацию рабочих категорий.
Параметры контент-анализа
На странице находятся:
список всех доступных контекстных категорий;
переключатель типа ассоциативных связей;
переключатель типа единиц контекста;
кнопки <Анализ>, <Помощь> и <Отказ>.
Понятие контекста является ключевым для реализованной в системе ВААЛ модели контент-анализа. Дело в том, что в одном и том же тексте могут одновременно присутствовать несколько предметов/тем обсуждения. Они могут описываться совершенно по-разному, и потому интегральная оценка всего текста не будет иметь никакого смысла, если целью анализа является выявление различий в представлении этих предметов/тем. Для решения этой задачи можно было бы вручную выбрать в тексте те предложения или абзацы, в которых содержатся упоминания интересующих предметов/тем и проанализировать их отдельно, но гораздо удобнее автоматизировать этот процесс. Что и сделано в ВААЛе.
Контекст анализа может:
состоять из всего анализируемого текста;
состоять из некоторых предложений текста;
состоять из некоторых абзацев текста.
В первом случае из списка всех доступных контекстных категорий следует выбрать строку (Универсальный).
Во втором и третьем случаях для указания на интересующий заранее должна быть создана соответствующая категория. Например, для указания на контекст упоминания напитка Кока-кола заранее должна быть создана категория, состоящая из одного слова "Кока-кола". Именно эту категорию и следует выбрать в списке контекстных категорий. Затем следует установить переключатель типа единиц контекста - предложение или абзац.
Если контекст анализа не является универсальным, то может быть поставлена дополнительная задача выявления ассоциативных связей контекстной категории. Они выявляются путем составления специального частотного словаря анализируемых контекстов. При этом в словарь могут заноситься либо все слова анализируемых контекстов, либо лишь те, которые встречаются в этих контекстах существенно чаще, нежели во всем тексте. Этой цели как раз и служит переключатель типа ассоциативных связей.
Когда все установки сделаны, остается лишь нажать кнопку <Анализ>.
Нагрузка на категории
Анализ используемой человеком лексики и особенностей ее употребления позволяет получить много полезной информации. Путем такого анализа система ВААЛ позволяет оценить различные характеристики текста и его автора.
Таблица, представленная на первой странице, содержит общие категорно-статистические оценки текста:
первая колонка - имя категории;
вторая колонка - процент слов данной категории от общего объема текста;
третья колонка - количество слов данной категории, встретившихся в анализируемом тексте;
четвертая колонка - гистограмма для визуального представления количественных характеристик распределения;
пятая колонка - оценка отклонения количества встретившихся слов данной категории от среднеязыковой нормы. Это традиционная оценка в контент-анализе, известная как z-score. Подсчитывается она по следующей формуле: (N-E)/(стандартное отклонение), где N - количество слов данной категории, встретившихся в анализируемом тексте, а E - ожидаемое число вхождений слов данной категории в текст;
шестая колонка - гистограмма для визуального представления оценки отклонения количества встретившихся слов данной категории от среднеязыковой нормы. Красный цвет соответствует значительному превышению нормы, синий - значительному отклонению в меньшую сторону, серый - несущественному отклонению от нормы.
При подсчете ожидаемого числа слов некоторой категории в тексте учитывается длина этого текста (в словах) и нормальная частота встречаемости слов категории в языке. Так как частоты встречаемости слов меняются со временем, отличаются у различных слоев населения, профессиональных групп и пр., то для учета этого как раз и служат жанры в системе ВААЛ.
Жанр, относительно которого производится оценка, указан в статусной строке окна. В основном жанре используются нормальные частоты из обязательной программы по литературе для поступающих в ВУЗы. Эти частоты сопоставлены на этапе создания системы только встроенным категориям. Поэтому, если Вы оцениваете текст относительно основного жанра, то для сформированных Вами категорий пятая и шестая колонки таблицы будут пусты. При оценке относительно производных жанров эти колонки будут заполнены, но в этом случае необходимо соблюдение некоторых предосторожностей, о которых сказано разделе помощи, посвященном созданию жанров.
Под таблицей находится флаг Нормализованный оценки. Если его установить, то оценки будут пересчитаны для текста той длины, которая указана самим пользователем. Это удобно для сравнения текстов различной длины.
Если вы хотите сохранить оценки текста в файл для последующего использования, то нажмите кнопку <�Протокол>. В появившемся окне вам необходимо указать имя файла. Если указано имя уже существующего файла, то данные добавляются в его конец. Для хранения протоколов по умолчанию используется специальная директория ...\VAAL\Protocol.
В ряде случаев возникает задача вторичной математической обработки результатов оценки текстов. Для сохранения и накопления результатов оценки вы можете воспользоваться кнопкой <База данных>. При нажатии на нее вам будет предложено сохранить оценки текста в файле. Если указано имя уже существующего файла, то данные добавляются в его конец. Накопив в одном файле оценки текстов, вы можете затем их подвергнуть дополнительному анализу с использованием модуля визуализации системы ВААЛ, либо более изощренным видам анализа с использованием таких известных систем как Statistica и SPSS.
Файлы данных хранятся в специальной директории ...\VAAL\Data. При сохранении можно дополнительно указать следует ли сохранить проценты, частоты или коэффициенты Cf. В зависимости от сделанного выбора система сама присвоит файлу расширение dpr, dfr или dcf.
Дополнительно Вы имеете возможность распечатать таблицу на принтере.
Профили категорий
Очевидно, что слова различных категорий распределены в тексте неравномерно. Знание такого распределения позволяет получить информацию об акценте на те или иные категории в разных частях текста.
На второй странице имеются:
окно профиля категорий;
список категорий.
Для построения профиля категорий текст разбивается на 50 примерно равных по длине отрезков и для каждого из них подсчитывается, сколько раз встретились в нем слова той или иной категории. В зависимости от этого и вычерчивается график.
Чтобы получить профиль для конкретной категории, следует выбрать ее в списке справа.
У
становив курсор на один из столбиков профиля категории и дважды щелкнув левой кнопкой мышки, Вы можете закрыть окно и установить курсор в начало того куска текста, который соответствует выбранному столбику.
В ряде случаев возникает задача вторичной математической обработки профилей категорий. Для сохранения и накопления профилей вы можете воспользоваться кнопкой <База данных>. При нажатии на нее вам будет предложено сохранить профиль в файле. Если указано имя уже существующего файла, то данные добавляются в его конец. Накопив в одном файле профили категорий, вы можете затем их подвергнуть либо факторному анализу с использованием соответствующего модуля системы ВААЛ, либо более изощренным видам анализа с использованием таких известных систем как Statistica и SPSS. Файлы данных хранятся в специальной директории ...\VAAL\Data. Система сохраняет данные в файлах с расширением dof. Вам не нужно беспокоиться о правильном расширении файла. Система сделает это за Вас. Следует учесть при этом, что в отличие от протокола в файл сохраняется профиль лишь той категории, которая выбрана в списке.
Связи категорий
Что мы получим, если вычислим коэффициент корреляции между профилями двух категорий? Мы получим оценку силы и вида (положительной/отрицательной) связи между двумя этими категориями в анализируемом тексте (в голове автора текста).
Таблица, представленная на третьей странице, содержит оценки связи между категориями:
|