Аппаратно-программный комплекс "PhonoBase" |
Системы идентификации голоса |
Аппаратно-программный комплекс "PhonoBase" Назначение Программное обеспечение ПО PhonoBase предназначено для учёта и поиска фонограмм по индивидуализирующим особенностям устной речи говорящих, регистрационным и текстовым данным. Требуемый типовой состав аппаратных средств для PhonoBase IBM PC: процессор - типа Pentium III; оперативная память - не менее 64 Мбайт; жесткий диск объёмом не менее 7 Гбайт (для учётного массива не более 1000 объектов); звуковая плата - CSL 4100/4400/4500 KAY или типа Sound BlasterTM; аппаратура звукозаписи / звуковоспроизведения класса Hi-Fi; источник бесперебойного питания. Основные характеристики ПО PhonoBase базируется на методике исследования особенностей устной речи говорящих "Диалект" (в/ч 34435. Москва, 1996г.) и совместимо с программным обеспечением для идентификации говорящих по особенностям устной речи "Phonexi". Комплексное использование ПО PhonoBase и "Phonexi" позволяет осуществлять полный цикл операций по постановке фонограмм устной речи на учёт, поиску фонограмм в учётном массиве и идентификации говорящего.
Постановка на учёт и поиск объектов в учётном массиве может осуществляться как раздельно по акустическим, лингвистическим признакам и регистрационным данным, так и при их комплексном использовании. PhonoBase работает в операционной среде Windows 98/NT/2000/XP. Требования по качеству фонограмм Типовые фонограммы речи, обрабатываемые в PhonoBase, должны иметь следующие основные характеристики: частотный диапазон речевых сигналов - 300-3400 Гц; отношение средних уровней речевых сигналов и помех - не менее 15 дБ; уход скорости при звукозаписи фонограмм - не более 2 %. Общая длительность типовых фонограмм устной речи объекта, ставящегося на учёт, должна быть не менее 100 с. Количество разнесённых по времени сеансов звукозаписи фонограмм - не менее 3. Длительность фонограммы речи объекта в одном сеансе записи - около 30 с. Длительность фонограммы речи объекта - заявки поиска - не менее 10 с. Допускается использование не типовых (коротких) по длительности фонограмм устной речи (при пониженной надёжности поиска): длительность фонограммы речи объекта, ставящегося на учёт, - не менее 5 с; длительность фонограммы речи объекта - заявки поиска - не менее 5 с. Временные характеристики PhonoBase Временные затраты на постановку одного объекта на учёт (удаление речи оппонента, редактирование фонограмм, вычисление и кодирование признаков, постановка на учёт и др.): для типовых фонограмм - около 1 часа, для коротких фонограмм - около 20 мин. Временные затраты на обработку одной заявки поиска в одной фонотеке размером до 50 объектов (удаление речи оппонента, редактирование фонограмм, вычисление и кодирование признаков, поиск и др.): для типовых фонограмм - около 45 мин., для коротких фонограмм - около 40 мин. Надёжность поиска объектов по типовым фонограммам Средний уровень ошибок поиска объектов по акустическим признакам: "ложная тревога" - 0.20, "пропуск цели" - 0.05. Средний уровень ошибок поиска объектов по лингвистическим признакам: "ложная тревога" - 0.15, "пропуск цели" - 0.01. При комплексном использовании акустических и лингвистических признаков средний уровень ошибок поиска объектов: "ложная тревога" - 0.10, "пропуск цели" - 0.01. Требования по установке PhonoBase на компьютер Для установки PhonoBase необходимо 100 Мб свободного дискового пространства. Для работы PhonoBase необходимо установить на компьютер следующие компоненты: Data Access Objects, Internet Explorer 4.0 (или выше) и утилита Crystal Reports. При установке PhonoBase на компьютер с CD-ROM требуется ключевая дискета. Одна ключевая дискета позволяет установить пять копий PhonoBase Требования к специалистам, работающим на PhonoBase Обработка речевой информации может осуществляться специалистом, прошедшим 2-х месячное обучение. Обязательным показателем профессиональной пригодности специалиста является отсутствие нарушений слуха и наличие специальных познаний в области общего языкознания, фонетики, акустики устной речи, основ магнитной звукозаписи, основ автоматической обработки речевых сигналов на ЭВМ. |