Куковякин Алексей Валентинович icon

Куковякин Алексей Валентинович



Смотрите также:
Ляпин Сергей Хамзеевич,

канд. филос. наук, доцент

ген. директор ООО «Константа»,

директор АОЦПК (г. Архангельск, Россия)

e-mail: cpk@atnet.ru


Куковякин Алексей Валентинович,

зам. ген. директора ООО «Константа»,

зам. директора АОЦПК (г. Архангельск, Россия)

e-mail: magicmagus@yandex.ru.


Многоязычный поиск в многофункциональной электронной библиотеке: общие подходы и их реализация в ИС T-Libra 6.x®


Міжнародна наукова конференція «Проблеми гармонізації традиційних і новітніх бібліотечно-інформаційних ресурсів», Київ, 7-8 жовтня 2008 р.


В докладе рассматриваются перспективные и текущие вопросы организации многоязычного поиска в многофункциональной электронной библиотеке с возможностями гибкого тематизируемого полнотекстового поиска и мультимодального расширения.

Во введении предлагается классификация типов многоязычного поиска, дается краткий обзор литературы по проблемам многоязычного поиска в информационных ресурсах различного вида и формата и в рамках различных технологических решений. Речь идет, в частности:

- о создании и использовании многоязычных тезаурусов (стандарты их проектирования и оценки [1], их использование для автоматического концептуального индексирования [2] и инструмента обработки больших многоязычных текстовых массивов [3]);

- об организации кросс-языкового поиска для автоматического составления многоязычных словарей по заглавиям статей [4];

- об осуществлении многоязычного поиска в полнотекстовых и мультимодальных коллекциях документов различного назначения (библиотечных, музейных, архивных и т.д.), в том числе поиска, реализованного в рамках различных прикладных разработок этого рода, обсуждаемых и экспериментально исследуемых в рамках российской программы РОМИП (Российская Оценка Методов Информационного Поиска) и ежегодного семинара, присоединенного к Всероссийской конференции по электронным библиотекам и электронным коллекциям (RCDL), а также европейской программы CLEF (Cross-Language Evaluation Forum) и ежегодного международного семинара CLEF Workshop, присоединенного к Европейской конференции по электронным библиотекам (ECDL),

Далее обосновывается тезис о том, что современная электронная библиотека может рассматриваться как наиболее общая и универсальная информационная среда, в которой в разной степени и разной форме должны быть реализованы все основные виды поиска, в том числе многоязычного, – и для того, чтобы осуществлять эффективный поиск и представление его результатов по всем типам и видам документов [8], фактически представленных на разных языках в традиционных («бумажных») библиотеках и уже поэтому потенциально включаемых в электронную библиотеку, и для того, чтобы обеспечивать интересы самых разных категорий пользователей, по-разному работающих с разными типами и видами документов.

Задачи создания такого рода открытых информационных систем общего назначения, взаимодействующих между собой с помощью унифицированных Веб-сервисов, особенно актуальны для европейского сообщества в связи с растущей интеграцией разных культур в рамках единого экономического и политического пространства Евросоюза. Но они важны также и для более широкого диалога культур и языков (и соответствующих «культурных текстов») в современном глобальном информационном пространстве.

В этом контексте более подробно рассматриваются вопросы текущей реализации и дальнейшего развития многоязычного поиска в информационной системе T Libra 6.x, предназначенной для создания многофункциональных электронных библиотек с гибким тематизируемым полнотекcтовым поиском и возможностями мультимодального расширения (разработка ООО «Константа», Архангельск, Россия) [9; 10; 11; 12; 13]. В их числе проблемы и решения, касающиеся:

- подготовки и импорта многоязычных полнотекстовых ресурсов, включая проблему шрифтов и их отображения в окне браузера при презентации результатов поиска;

- использования готовых и/или генерируемых при импорте электронных многоязычных словарей, необходимых как для поддержки полнотекстового поиска общего назначения, так и для обеспечения работы специализированных модулей и оболочек для различных категорий пользователей;

- использования генерации «на лету» словоизменительной грамматической парадигмы для терминов, введенных в поля формы пользовательского запроса;

- использования многоязычного тезауруса (тезаурусов) для поддержки полнотекстового поиска (в том числе определяемых пользователем при формировании условий запроса мини-тезаурусов) – как в рамках адаптации к ИС T-Libra готовых тезаурусов, так и путем генерация тезауруса средствами самой информационной системы;

- собственно многоязычного поиска и презентации его результатов, в том числе вопросы оптимальной организации интерфейса для различных задач (обработки различных типов и видов документов) и различных категорий пользователей;

- решение проблемы UNICODE на всех уровнях (подготовка и импорт ресурсов, организация и/или генерация электронного словаря словоформ, подготовка и использование тезауруса, полнотекстовый поиск и презентация его результатов в окне браузера).

Доклад сопровождается демонстрацией слайдов, а также примерами осуществления многоязычного поиска в действующей версии ИС T-Libra v.6.2. на коллекции документов (русский, украинский, английский языки).


Литература


1. Аджиев, Алим Сапарович. Подходы к описанию и использованию тезаурусов в информационных системах / Аджиев Алим Сапарович, Нгуен Хунь Мань // Электронные библиотеки: перспективные методы и технологии, электронные коллекции. Труды 5-й Всероссийской научной конференции. RCDL'2003, Санкт-Петербург, Россия, 2003 г. – С. 191-200. [Электронный ресурс]. – Режим доступа: http://rcdl2003.spbu.ru/proceedings/F1.pdf

2. Добров, Б.В. Тезаурус и автоматическое концептуальное индексирование в Университетской Информационной Системе «РОССИЯ» / Добров Б.В., Лукашевич Н.В. // Электронные библиотеки: перспективные методы и технологии, электронные коллекции. Труды Третьей Всероссийской конференции. RCDL'2001. - Петрозаводск, 2001. - С.78-82. [Электронный ресурс]. – Режим доступа: http://rcdl2001.krc.karelia.ru/papers/papers/dobrov_lukashevich/dobrov_paper.rtf

3. Добров, Б.В. Организация двуязычного поиска в Университетской Информационной Системе «Россия» / Добров Б.В., Лукашевич Н.В. // Электронные библиотеки: перспективные методы и технологии, электронные коллекции. Труды Четвертой Всероссийской научной конференции RCDL’2002. Дубна, 15–17 октября 2002 г. - Том 2. – С. 148-158. [Электронный ресурс]. – Режим доступа: http://rcdl2002.jinr.ru/Reports/Vol_2/vol2_148-158.pdf

4. Абрамова, Н.Н. Формирование многоязычных словарей и их использование при кросс-языковом поиске информации / Абрамова Н.Н., Глобус Е.И. [Электронный ресурс]. – Режим доступа: http://company.yandex.ru/grant/2005/01_Abramova_102704.pdf

5. Агеев, М.С. Обзор исследований в рамках Cross-Language Evaluation Forum в 2006 году // Российский семинар по Оценке Методов Информационного Поиска. Труды четвертого российского семинара РОМИП'2006. (Суздаль, 19 октября 2006г.). Санкт-Петербург: НУ ЦСИ, 2006. 274 с. – C.151-159. [Электронный ресурс]. – Режим доступа: http://romip.narod.ru/romip2006/14_uis_clef.pdf

6. Cross-Language Evaluation Forum (CLEF) // [Электронный ресурс]. – Режим доступа: http://www.clef-campaign.org

7. Peters, Carol. What happened in CLEF 2006. Introduction to the Working Notes // Proceedings of CLEF’2006. [Электронный ресурс]. – Режим доступа: http://www.clefcampaign.org/2006/working_notes/ workingnotes2006/petersCLEF2006.pdf

8. Ляпин, С.Х. Электронный документ в многофункциональной электронной библиотеке (на пути к организационно-функциональной интеграции ресурсов и сервисов) // V міжнародна науково–практична конференція «ДОКУМЕНТОЗНАВСТВО. БІБЛІОТЕКОЗНАВСТВО. ІНФОРМАЦІЙНА ДІЯЛЬНІСТЬ: ПРОБЛЕМИ НАУКИ, ОСВІТИ ТА ПРАКТИКИ». Державна академія керівних кадрів культури і мистецтв. Київ, Україна, 20-22 травня 2008 р. В докладе на пленарном заседании обосновывается тезис об использовании электронной библиотеки в качестве универсальной информационной среды для включения в нее документов различного типа, вида и назначения.

9. ^ Ляпин, С.Х. Методология и технология создания многоцелевой информационной среды T-System на базе электронной библиотеки с гибким полнотекстовым поиском / Ляпин С.Х., Куковякин А.В. // Труды Седьмой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции», RCDL'2005, Ярославль, 4-6 окт. 2005 г. – Ярославль: Изд-во ЯрГУ, 2005. [Электронный ресурс]. – Режим доступа: http://www.rcdl2005.uniyar.ac.ru/ru/RCDL2005/papers/sek2_1_paper.pdf; см. также: www.elbib.ru/index.phtml?page=elbib/rus/journal/2006/part5/Lyapin

10. Ляпин, С.Х. Интеллектуализация многофункциональной электронной библиотеки: концепция, методология, технология // Международная научная конференция «Интеллектуальные информационные технологии в библиотечном деле», 11-12 октября 2005 г., Киев, Национальная библиотека Украины им. В.И.Вернадского (доклад на пленарном заседании). [Электронный ресурс]. – Режим доступа: http://www.nbuv.gov.ua/new/05_kiev/plenar.html

11. ^ Ляпин, С.Х. Гибкий поиск и его модификации в многофункциональной информационной среде T-System / Ляпин С.Х., Куковякин А.В. // Материалы международной конференции «EVA-2005, Москва», 28 ноября - 02 декабря 2005 г., г. Москва, Всероссийская государственная библиотека иностранной литературы им. М.И.Рудомино. [Электронный ресурс]. – Режим доступа: http://conf.cpic.ru/upload/eva2005/reports/tezis_412.doc.

12. Ляпин, С.Х. Расширение функциональности электронной библиотеки в составе многоцелевой информационной среды: тематические коллекции и интерактивные экспозиции / Ляпин С.Х., Куковякин А.В. // Материалы международной конференции «Роль бібліотек у формуванні єдиного науково-інформаційного простору України», 10-11 октября 2006 г., Киев, Национальная библиотека Украины им. В.И.Вернадского. [Электронный ресурс]. – Режим доступа: http://www.nbuv.gov.ua/new/05_Kiev/plenar.html

13. ^ Ляпин, С.Х. Информационная система T-Libra 6.х для создания многофункциональных библиотек: новые проекты, новые задачи, новые возможности / Ляпин С.Х., Куковякин А.В. // Материалы международной конференции EVA-2007 [Электронный ресурс]. – Режим доступа: http://conf.cpic.ru/upload/eva2007/reports/ doklad_1246.doc


Российский семинар по Оценке Методов Информационного Поиска (РОМИП)

Целью семинара является создание плацдарма для проведения независимой оценки методов информационного поиска, ориентированных на работу с русскоязычной информацией, а также консолидация сообщества российских исследователей и разработчиков, занимающихся информационным поиском.

http://romip.narod.ru/

^

Российский семинар по Оценке Методов Информационного Поиска


РОМИП - это инициатива по созданию плацдарма для проведения независимой оценки методов информационного поиска, ориентированных на работу с русскоязычной информацией.

Проект имеет некоммерческий характер и осуществляется силами сообщества российских исследователей и разработчиков, занимающихся информационным поиском. Затраты на подготовку и проведение тестирования возмещаются за счёт взносов участников. Результаты тестирования предназначены для использования только в исследовательских целях и не могут быть использованы в маркетинговых или коммерческих целях.

Используемые методики оценки являются открытыми, они сформированы с учётом мнения участников. Результаты работы семинара публично доступны как в виде трудов семинара, так и в виде построенных тестовых корпусов. Доступ к корпусам можно получить после обращения в Оргкомитет РОМИП и подписания необходимых соглашений с правообладателем.

Благодарности


Проведение семинара стало возможным благодаря объединению усилий разных организаций и компаний. Мы выражаем благодарность за помощь в организации и предоставлении тестовых данных и коллекций документов следующим организациям и компаниям:

Отдельное спасибо организаторам всеросийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" (RCDL 2007), значительно упростивших проведение очной части семинара в 2003-2007 годах.

Мы благодарим РФФИ за поддержку семинара (грант 04-07-90280-в).

Также мы хотим выразить благодарность асессорам за их кропотливый труд по оценке.

Оргкомитет РОМИП
^

http://romip.narod.ru/ru/2007/index.html

Семинар РОМИП'2007


Здесь собрана подробная информация о прошедшем в 2007 году пятом цикле семинара РОМИП:

Результаты и отчеты участников РОМИП'2007 доступны в разделе "Публикации".
^

Хроника событий


3 апреля 2007

Начало распространения официальных приглашений к участию в семинаре РОМИП'2007

7 апреля

Опубликована информация о ПЕРВОЙ Российской летней школе по информационному поиску - RuSSIR, которая успешно прошла в Екатеринбурге в сентябре 2007 года.

10 апреля 2006

Опубликован новый контактный адрес оргкомитета - romip[AT]romip.ru.

1 мая 2007

Опубликован список участников РОМИП'2007.

14 июня 2007

Опубликованы правила проведения дорожек поиска и классификации, включая форматы данных и результатов. Начало распространения заданий для них.

25 июня 2007

Опубликованы правила проведения дорожек поиска по документу образцу, кластеризации новостного потока и контекстно-зависимого аннотирования, включая форматы данных и результатов.

20 сентября 2007

Разосланы результаты оценки для дорожки поиска по нормативно-правовой коллекции.

25 сентября 2007

Разосланы результаты оценки для дорожек поиска по Веб коллекции и смешанной коллекции.

1 октября 2007

Разосланы результаты оценки для дорожек классификации Веб-сайтов и Веб-страниц.

10 октября 2007

Публикация трудов РОМИП'2007 отложена из-за задержек с проведением оценки.

18 октября 2006

В Переславле-Залесском состоялась очная часть РОМИП'2007, на которой были представлены 6 докладов. После закрытия официальной части семинара и RCDL по традиции состоялся неформальный круглый стол. Заметки с круглого стола опубликованы в форуме.

20 октября 2007

Опубликованы слайды очной встречи.

Оргкомитет


  • Михаил Агеев (МГУ, Москва)

  • Павел Браславский (ИМаш УрО РАН, Екатеринбург)

  • Максим Губин (Кодекс, Санкт-Петербург)

  • Борис Добров (УИС РОССИЯ, Москва)

  • Игорь Кураленок (СПбГУ, Санкт-Петербург)

  • Игорь Некрестьянов (СПбГУ, Санкт-Петербург)

  • Владимир Плешко (Гарант-Парк Интернет, Москва)

  • Илья Сегалович (Яндекс, Москва)

  • Влад Шабанов (Рамблер,Москва)

Участники


  • Exactus
    Exactus - система семантического поиска и анализа текстовой информации в гетерогенных информационных ресурсах и сервисах. Exactus - это научно-исследовательский проект, который развивается в Институте Системного Анализа РАН в течении последних 5 лет командой опытных лингвистов, программистов, математиков и психологов.
    Новая версия Exactus успешно сочетает в себе статистические и лингвистические методы анализа текстов и функционирует на высокопроизводительной кластерной установке под управлением операционной системы Unix. Exactus представляет поисковый сервисы естественно-языкового поиска, вопросно-ответного поиска, расширения запроса близкими по смыслу словами из Тезауруса, персональной онтологии пользователя и много другое.

  • NearSky
    Система обнаружения закономерностей в больших объемах данных. NearSky обладает возможностями для проведения эффективного поиска, формирования прогнозов и классификации текстов в предопределнные категории. В основе системы лежит метод приближенного вычисления оценок вероятностей событий.

  • RCO
    Компания RCO специализируется на исследованиях в области компьютерной лингвистики и создании компонентов интеллектуального анализа текста для информационно-поисковых и информационно-аналитических систем. На семинаре планируется провести апробацию ряда алгоритмов тематической классификации документов и структуризации новостного потока.

  • SOPHIA
    SOPHIA (SOPHisticated Information Analysis)- это система поиска, в основе которой лежит алгоритм, кластеризации Contextual Document Clustering (CDC). Алгоритм CDC выделяет из множества документов в коллекции узкие по смыслу контексты (кластеры).

  • SPECS
    Исследовательский проект, посвященный созданию системы периодического тематического поиска в Web.

  • Yandex
    Версия поисковой системы 3.8.2 beta.
    Версия новостного агрегатора 2.1

  • Галактика-Zoom
    Система обработки больших объемов неструктурированных данных Галактика-Zoom - инструмент для создания хранилища текстовой информации, который обладает возможностями для проведения эффективного поиска и аналитических исследований. Галактика-Zoom обеспечивает поиск в информационных массивах с применением языка запросов; возможен контекстный или тематический поиск информации с учетом морфологии. С помощью комплекса Галактика-Zoom можно построить информационный образ объекта исследования (Информационный портрет) на основе языковых конструкций - слов и словосочетаний.

  • Зеркало новостей
    Cистема предназначена для автоматического формирования выпусков новостей, собираемых от различных источников. В основе алгоритмов кластерного анализа и реферирования лежит подход, основанный на использовании абзацев в качестве единицы текста.

  • Поиск@Mail.ru

  • Поиск KM.ru
    KM.ru на РОМИП-2007 планирует провести апробацию новой поисковой системы, реализующей функции классического информационного поиска. В основе системы - традиционные алгоритмы и собственные разработки.

  • ^ УИС РОССИЯ

Университетская информационная система РОССИЯ (УИС РОССИЯ) - проект, нацеленный на интеграцию информационных ресурсов для гуманитарных исследований. Поддерживается Научно-исследовательским вычислительным центром МГУ им.М.В.Ломоносова (НИВЦ МГУ) и АНО Центр информационных исследований (АНО ЦИИ).

Решения на основе технологий УИС РОССИЯ - тематический анализ текстов, классификация по большим рубрикаторам, интерактивный поиск документов - используются в некоторых органах государственной власти и управления, коммерческих организациях.
^

Участие в семинаре


Семинар открыт для присоединения новых участников. К участию приглашаются все заинтересованные лица - как создатели поисковых систем, так и исследователи, занимающиеся проблемами информационного поиска.

Участник свободен в определении набора дорожек, в которых он хочет участвовать, и может напрямую влиять на правила проведения этих дорожек во время их формирования. Приветствуется также предложение новых вариантов дорожек на общее обсуждение.

Участнику предоставляется:

  • Набор данных и заданий для выбранных дорожек

  • Подробная информация о правилах проведения семинара и используемой методологии

  • Анонимная оценка результатов тестируемой системы

  • Информация о всех собранных экспертных оценках для дорожек, в которых он принимает участие.

  • Набор вспомогательных инструментов для облегчения процедур импорта и вычисления оценок

От участника ожидается:

  • представление результат прогона(ов) системы для их независимой оценки в оговорённые сроки в требуемом формате

  • представление статьи с описанием общих принципов использованного подхода и полученных результатов и доклада на очной встрече

  • участие в компенсации затрат на распространение тестовых корпусов и оценку результатов (в виде прямых финансовых вкладов или предоставлении ресурсов для проведения оценки)

Поощряется также и решение модифицированных задач на основе используемых наборов данных.

Заявка на участие


Заявка на участие в семинаре РОМИП должна содержать следующую информацию:

  • краткая (в 1-2 абзаца) презентация системы
    (название, ссылка в web, краткое описание принципов используемого подход

  • контактная информация
    (организация, email контактного лица)

  • список дорожек, в которых вы заинтересованы принять участие

Заявки принимаются по адресу: romip[AT]romip.ru




Скачать 162.09 Kb.
Дата конвертации28.12.2012
Размер162.09 Kb.
ТипДокументы
Разместите кнопку на своём сайте или блоге:
rud.exdat.com


База данных защищена авторским правом ©exdat 2000-2012
При копировании материала укажите ссылку
обратиться к администрации
Документы