Методические указания к лабораторному практикуму по дисциплине «Технические средства информатизации»


Скачать 0.88 Mb.
Название Методические указания к лабораторному практикуму по дисциплине «Технические средства информатизации»
страница 7/8
Тип Методические указания
rykovodstvo.ru > Руководство эксплуатация > Методические указания
1   2   3   4   5   6   7   8

4.6. Лабораторная работа №6



Тема: Распознавание текста (FineReader).
Цель лабораторной работы

Ознакомиться с интерфейсом приложения и приемами распознавания отсканированных документов.
Оборудование: Персональный компьютер.

Программное обеспечение: ABBY FineReader.
Пояснения к работе

Время выполнения – 6 часов.

Порядок выполнения лабораторной работы.

1. Изучить теоретический материал методических указаний.

2. Выполнить задание.

3. Проверить свои знания по контрольным вопросам и сдать лабораторную работу.
Предварительная подготовка

Перед выполнением лабораторной работы студент должен заранее ознакомиться с содержимым данных методических указаний.
Работа в лаборатории
Основные элементы интерфейса программы FineReader

Программы распознавания текстов позволяют автоматизировать процесс перевода графической информации, получаемой при сканировании, в текстовую. Рассмотрим одну из таких программ – FineReader (точнее ABBYY FineReader 6.0 Corporate Edition).

FineReader – омнифонтовая система оптического распознавания текстов. Это означает, что она позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы FineReader является высокая точность распознавания и малая чувствительность к дефектам печати, что достигается благодаря применению технологии «целостного целенаправленного адаптивного распознавания» [1].

Процесс ввода документа в компьютер можно подразделить на два этапа [1]:

1. Сканирование. На первом этапе сканер играет роль «глаза» Вашего компьютера: «просматривает» изображение и передает его компьютеру. При этом полученное изображение является не чем иным, как набором черных, белых или цветных точек, картинкой, которую невозможно отредактировать ни в одном текстовом редакторе.

2. Распознавание. Обработка изображения OCR-системой.

Замечание: системы оптического распознавания символов (Optical Character Recognition - OCR) предназначены для автоматического ввода печатных документов в компьютер.

Остановимся на втором шаге более подробно.

Обработка изображения системой FineReader включает в себя анализ графического изображения, переданного сканером, и распознавание каждого символа. Процессы анализа макета страницы (определение областей распознавания, таблиц, картинок, выделение в тексте строк и отдельных символов) и распознавания изображения тесно связаны между собой: алгоритм поиска блоков использует информацию о распознанном тексте для более точного анализа страницы.

Как уже упоминалось, распознавание изображения осуществляется на основе технологии «целостного целенаправленного адаптивного распознавания» [1].

Целостность означает, что объект описывается как целое с помощью значимых элементов и отношений между ними.

Целенаправленность – распознавание строится как процесс выдвижения и целенаправленной проверки гипотез.

Адаптивность – способность OCR-системы к самообучению.

В соответствии с этими тремя принципами система сначала выдвигает гипотезу об объекте распознавания (символе, части символа или нескольких склеенных символах), а затем подтверждает или опровергает ее, пытаясь последовательно обнаружить все структурные элементы и связывающие их отношения. В каждом структурном элементе выделяются части, значимые для человеческого восприятия: отрезки, дуги, кольца и точки. Следуя принципу адаптивности, программа самостоятельно «настраивается», используя положительный опыт, полученный на первых уверенно распознанных символах. Целенаправленный поиск и учет контекста позволяют распознавать разорванные и искаженные изображения, делая систему устойчивой к возможным дефектам письма [1].

В результате работы в окне FineReader появится распознанный текст, который Вы можете отредактировать и сохранить в наиболее удобном для Вас формате.

Основные элементы интерфейса программы: меню, панели инструментов, строка состояния (см. рис. 1).

В верхней части Главного окна FineReader находится меню системы, под ним – панели инструментов. В программе их четыре: Стандартная, Форматирование, Изображение и Scan&Read. Панель инструментов Изображение обычно находится в окне Изображение. Под панелями инструментов располагается рабочая область окна программы, которая обычно разбита на четыре части (на рис. 1 отмечены цифрами 1-4).

1. Окно Пакет.

В данном окне можно добавлять изображения, которые хранятся в различных файлах (например, файлы с изображениями или файл документа в pdf-формате). При добавлении изображения в окне появляется макет страницы (как при использовании эскизов в проводнике). Добавлять изображение в пакет можно несколькими способами (пункт меню Открыть изображение… , кнопка на панели инструментов Открыть или сочетание клавиш Ctrl+O) и, конечно же, несколько файлов сразу (используя стандартный диалог открытия файлов).
2. Окно Изображение.

В этом окне выводится изображение страницы. К левой части данного окна прикреплена панель инструментов Изображение. В этом окне происходит разметка отсканированного изображения путем выделения различных блоков. После этой процедуры можно приступать к распознаванию полученного макета страницы.



Рис. 1. Окно FineReader

3. Окно Текст.

В этом окне выводится результат, полученный после процедуры распознавания страницы. Имеются возможности редактирования полученного текста.

4. Окно Крупный план.

Это окно чаще всего используется в качестве вспомогательного при редактировании текста в предыдущем окне. Здесь можно детально рассмотреть любой фрагмент страницы и затем устранить на основе оригинала дефекты распознавания.

Окна Изображение, Крупный план и Текст связаны между собой: при двойном щелчке на изображении в окне Изображение курсор в окнах Крупный план и Текст (при наличии распознанного текста) переместится на ту же позицию, что и в окне Изображение.

Упражнение 1. Отсканируйте несколько страниц текста. Создайте новый пакет (используя в меню Файл команду Новый пакет). Добавьте в пакет отсканированные изображения. Добавление производится с помощью команды ФайлОткрыть изображение. Далее перейдите к первому изображению, выделив в пакете первую иконку (окно Пакет). Указателем мыши позиционируйте текущее положение элемента, который выглядит в виде синей рамки со значком лупы. Обратите внимание, что в окне Крупный план изображение при этом меняется.
Панели инструментов FineReader

Панель инструментов Стандартная

На панели Стандартная находятся кнопки, управляющие работой с файлами и изображением (отмена и повтор действия, перемещение по страницам пакета, очистка и поворот изображения), а также список языков распознавания (см. рис. 2).



Рис. 2. Панель инструментов Стандартная
Панель инструментов Форматирование

На панели Форматирование находятся кнопки, позволяющие изменить оформление текста (см. рис. 3).



Рис. 3. Панель инструментов Форматирование
Панель инструментов Scan&Read

Кнопки на панели Scan&Read связаны с базовыми операциями системы: Сканирование, Распознавание, Проверка и Сохранение результатов распознавания. Цифры на кнопках указывают, в каком порядке нужно выполнить действия, чтобы получить электронную версию бумажного документа. Каждое из этих действий можно провести по отдельности или объединить в одно, нажав на кнопку Мастер Scan&Read. Она позволяет провести полный цикл обработки текста автоматически. Каждая из кнопок имеет несколько режимов работы. Нажав на стрелку справа от кнопки, в открывшемся локальном меню Вы можете выбрать один из них, при этом «информация» об этом отразится на значке кнопки. Для того чтобы повторить ту же операцию для другого изображения, Вам достаточно повторно нажать на кнопку.
Таблица – Кнопки панели инструментов Scan&Read и их назначение

Название кнопки

Режимы работы

Scan&Read





Сканировать и распознать - запускает сканирование и распознавание документа.

Сканировать и распознать несколько страниц - сканирует и распознает несколько страниц в цикле.

Открыть и распознать  - позволяет открыть и распознать изображения, выбранные в диалоге Открыть (Open).

Мастер Scan&Read - запускает специальный режим сканирования и распознавания, во время которого система контролирует действия пользователя и подсказывает ему, что надо делать, чтобы получить тот или иной результат.

Открыть





Открыть изображение - добавляет изображение в пакет, при этом копия изображения сохраняется в папке пакета.

Сканировать изображение - сканирует изображение.

Сканировать несколько страниц - сканирует изображения в цикле. Чтобы остановить сканирование, в меню Файл выберите пункт Остановить сканирование.

Опции - открывает закладку Сканирование/Открытие диалога Опции, на которой Вы может установить опции сканирования и предварительной обработки документа.

Распознать





Распознать - распознает открытую страницу (или выделенные страницы) пакета.

Распознать все - распознает все нераспознанные страницы пакета.

Опции - открывает закладку Распознавание диалога Опции, на которой Вы может установить опции распознавания документа.



Продолжение таблицы

Название кнопки

Режимы работы

Проверить





Проверить - позволяет найти в тексте слова, содержащие неуверенно распознанные символы, и неправильно написанные слова.

Опции - открывает закладку Проверка диалога Опции, на которой Вы можете установить опции проверки документа.

MS Word





Мастер сохранения результатов - открывает диалог Мастер сохранения результатов, в котором Вы можете выбрать приложение для сохранения и установить опции сохранения.

Сохранить текст в файл - сохраняет распознанный текст в файл на диск.

Передать страницы в - напрямую передает распознанный текст в выбранное приложение без сохранения его на диск. При передаче распознанного текста с нескольких страниц пакета сначала выделите их в окне Пакет.

Передать все страницы в - передает все распознанные страницы в выбранное приложение без сохранения их на диск.

Опции - открывает закладку Форматирование диалога Опции, на которой Вы можете установить опции сохранения документа.


Работа с изображением

Работая с программой FineReader, пользователь всегда имеет дело с некоторым пакетом. Пакет – это папка, в которой хранятся изображения и рабочие файлы программы. Каждое отсканированное изображение записывается как отдельная страница пакета. Создать пакет можно используя команду меню ФайлНовый пакет ). Затем можно добавлять страницы с изображением.

Открыть имеющийся пакет можно командой ФайлОткрыть пакет ). После этого можно будет работать с изображением.

Для работы с изображением лучше пользоваться панелью инструментов Изображение (находится в левой части окна Изображение). Рассмотрим все кнопки на этой панели инструментов.

– анализ макета страницы.

Данная команда позволяет автоматически разбить на блоки изображение. Очень полезная функция в случае, если в изображение входит только несколько лишних блоков, например, только номер страницы и т.п.

– выделить зону распознавания.

С помощью этой команды мышью можно выделить зону распознавания и затем нажать Распознать. Блоки в зоне распознавания определяются автоматически.

Замечание: документы со сложными формулами таким образом лучше не распознавать, так как получится абсолютно нечитабельный текст.

– выделить текстовый блок.

С помощью этой команды мышью можно выделить текстовый блок в окне изображения. Текстовый блок, также как и все остальные, можно изменять (имеются в виду размеры блока), добавлять к нему части, удалять части и т.д. Можно также изменить тип блока, используя контекстное меню. Это тоже распространяется на две следующих команды панели инструментов. В результате распознавания в окне Текст получим текстовый фрагмент, который затем можно исправлять, используя встроенный редактор.

– выделить табличный блок.

С помощью этой команды мышью можно выделить табличный блок. Он будет распознан как таблица (определяются строки и столбцы по линиям пересечения). Все данные будут расположены в ячейках.

Замечание: при распознавании таблиц, в которых присутствуют не все линии разбиения ячеек возникают разного рода неточности (вплоть до определения блока как текстового). Чтобы избежать этого, необходимо после выделения табличного блока использовать команду контекстного меню Анализ структуры таблицы. Конечно, может возникнуть необходимость отредактировать получившуюся таблицу после анализа. Для этого будут использоваться команды, рассмотренные ниже.

– выделить картинку.

С помощью этой команды мышью можно выделить блок картинки. После распознавания этот блок не изменяется, а передается в окно Текст как изображение с исходным качеством.

Замечание: изображение из окна Текст скопировать нельзя. Для этой цели лучше переслать распознанную страницу в Microsoft Word, а затем скопировать получившийся рисунок в документ.

– выбор объектов.

Эта команда предназначена для выбора объектов (блоков) на странице.

– добавить часть к блоку.

С помощью данной команды можно добавить часть блока к уже имеющемуся блоку. Применять эту команду можно, например, для отсканированных страниц газет, журналов (где имеется обтекание изображений текстом и т.п.).

– удалить часть блока.

С помощью данной команды можно удалить часть блока. Применяется в тех же случаях, как и предыдущая команда.

– перенумеровать блоки.

Эта команда используется для присвоения блокам номеров по усмотрению пользователя. При применении этой команды достаточно лишь указать, какой номер какому блоку присвоить.

– удалить блок.

Команда используется для удаления одного или нескольких блоков на размеченном макете страницы.

– добавить вертикаль.

Данная команда предназначена для добавления вертикали в таблице. Применяется для блоков таблиц, в которых по каким-либо причинам неверно определились столбцы таблицы.

– добавить горизонталь.

Данная команда предназначена для добавления горизонтали в таблице. По аналогии с предыдущей командой применяется для блоков таблиц, в которых по каким-либо причинам неверно определились строки таблицы.

– удалить линии.

Команда используется для удаления лишних линий в табличном блоке (горизонтальных или вертикальных).

– уменьшить.

Уменьшение масштаба изображения страницы в два раза.

– увеличить.

Увеличение масштаба изображения страницы в два раза.

– ластик.

Стирает изображение. Можно использовать, например, при распознавании книжных страниц, для удаления черных или серых полос, которые получаются при сканировании на переплете страниц.

Рассмотрим еще несколько приемов, которые могут понадобиться при обработке изображения.
1   2   3   4   5   6   7   8

Похожие:

Методические указания к лабораторному практикуму по дисциплине «Технические средства информатизации» icon Методические указания к лабораторному практикуму по дисциплине «Основы...
Методические указания к лабораторному практикуму по дисциплине «Основы автоматики и теория устройства технических систем» для курсантов...
Методические указания к лабораторному практикуму по дисциплине «Технические средства информатизации» icon Методические указания к лабораторному практикуму по дисциплине «Вакуумная техника»
Манометрические преобразователи: Метод указ к л р по дисциплине «Вакуумная техника» /Моск гос ин-т эл-ки и мат-ки (технич универ-т),...
Методические указания к лабораторному практикуму по дисциплине «Технические средства информатизации» icon Методические указания к лабораторному практикуму по курсу “Эксплуатация...

Методические указания к лабораторному практикуму по дисциплине «Технические средства информатизации» icon Методические указания по выполнению практической (лабораторной) работы...
...
Методические указания к лабораторному практикуму по дисциплине «Технические средства информатизации» icon Методические указания по лабораторному практикуму «птк асутп аэс»
Ознакомление с оборудованием и программным обеспечением асу тп, применяемым на современных аэс россии
Методические указания к лабораторному практикуму по дисциплине «Технические средства информатизации» icon Методические указания для лабораторного практикума по учебным дисциплинам...
Методические указания предназначены для подготовки к лабораторному практикуму и сасмостоятельным занятиям по учебным дисциплинам...
Методические указания к лабораторному практикуму по дисциплине «Технические средства информатизации» icon Методические рекомендации по выполнению практических работ по междисциплинарному...
Мдк. 01. 01 раздел 3 Технические средства информатизации разработаны на основе Федерального государственного образовательного стандарта...
Методические указания к лабораторному практикуму по дисциплине «Технические средства информатизации» icon Методические указания к лабораторным работам по дисциплине “
Методические указания к лабораторным работам по дисциплине “Нормативные документы и должностные инструкции” / А. Г. Куприянов, А....
Методические указания к лабораторному практикуму по дисциплине «Технические средства информатизации» icon Методические указания по курсовому проектированию по дисциплине «Проектирование...
Электронный ресурс]: методические указания / О. Ф. Абрамова// Сборник «Методические указания» Выпуск. Электрон текстовые дан.(1файл:...
Методические указания к лабораторному практикуму по дисциплине «Технические средства информатизации» icon Методические указания по выполнению практических работ по дисциплине...
Методические указания предназначены для проведения практических работ по дисциплине
Методические указания к лабораторному практикуму по дисциплине «Технические средства информатизации» icon Методические рекомендации по проведению практических занятий по дисциплине...
Методическая разработка предназначена для использования студентами специальности: 230105 «Программное обеспечение вычислительной...
Методические указания к лабораторному практикуму по дисциплине «Технические средства информатизации» icon Методические указания по выполнению внеаудиторной самостоятельной...
Методические рекомендации составлены в соответствии с рабочей программой по дисциплине
Методические указания к лабораторному практикуму по дисциплине «Технические средства информатизации» icon Методические указания к практическим работам по учебной дисциплине
Методические указания к практическим работам по учебной дисциплине История отечественного государства и права для студентов спо специальности...
Методические указания к лабораторному практикуму по дисциплине «Технические средства информатизации» icon Темы курсового проекта по дисциплине Технические средства предприятий сервиса
Темы курсового проекта по дисциплине Технические средства предприятий сервиса для студентов группы сва-502 специальности 100101....
Методические указания к лабораторному практикуму по дисциплине «Технические средства информатизации» icon Методические указания к практическим работам по дисциплине «Базы данных»
Методические указания предназначены для проведения практических занятий по дисциплине «Базы данных», для специальности ксиК
Методические указания к лабораторному практикуму по дисциплине «Технические средства информатизации» icon Методические указания по выполнению практических работ по дисциплине...
Методические указания предназначены для студентов 1 и 2 курсов специальности 38. 02. 04 Коммерция по отраслям

Руководство, инструкция по применению




При копировании материала укажите ссылку © 2024
контакты
rykovodstvo.ru
Поиск