Интернет-поисковые системы
Для получения информации в среде Интернета создаются специальные поисковые системы. Как правило, они общедоступны и обслуживают пользователей в любой точке планеты, где имеется возможность работы с Интернетом. Непосредственно для поиска используются поисковые машины, число которых в мире исчисляется несколькими сотнями. Они ориентируются на определенные типы запросов или их сочетание (библиографический, адресный, фактографический, тематический и др.).
Кроме того, поисковые машины бывают библиографические, фактографические, полнотекстовые, смешанные и др.
Поисковые машины используют общие принципы работы, ориентированные на выполнение двух основных функций.
Первая функция реализуется программой-роботом, автоматически просматривающей различные сервера в Интернете. Находя новые или изменившиеся документы, она осуществляет их индексацию и передаёт на базовый компьютер поисковой машины. «Робот» – автоматизированный браузер, загружающий веб-страницу, изучающий её и, при необходимости, переходящим к одной из её гиперсвязей. Когда ему попадается страница, не содержащая связей, робот возвращается на одну–две ступени назад и переходит по адресу, указанному в одной из обнаруженных ранее связей. Запущенный робот проходит огромные расстояния в среде Интернета (киберпространстве), ориентируясь на развитие веб-сети и изменяя в соответствии с этим свои маршруты. Индексирующие роботы обрабатывают лишь HTML-файлы, игнорируя изображения и другие мультимедийные файлы. Они могут: обнаруживать связи с уже несуществующими страницами; устанавливать связь с наиболее популярными узлами, подсчитывая количество ссылок на них в других веб-страницах; регистрировать веб-страницы для оценки роста системы и др. Чаще всего роботы просматривают сервера самостоятельно, находя новые внешние ссылки в уже обследованных документах.
Вторая функция заключается в обработке выявленных документов. При этом учитывается все содержание страниц, зачастую не только полный текст, но и наличие иллюстраций, аудио и видео файлов, Java-приложений. Индексации подвергаются все слова в документе, что даёт возможность использовать поисковые системы для детального поиска по самой узкой тематике. Образуемые гигантские индексные файлы, хранящие информацию о том, какое слово, сколько раз, в каком документе и на каком сервере употребляется, составляют БД, к которой собственно и обращаются пользователи, вводя в поисковую строку ПОЗ (сочетания ключевых слов). Выдача результатов осуществляется с помощью специальной подсистемы, производящей интеллектуальное ранжирование результатов. В своих расчетах она опирается на местоположение термина, частоту его повторения в тексте, процентное соотношение данного термина с остальным текстом на данной странице и другие параметры, характеризующие возможности конкретной поисковой машины.
Следует отметить, что «роботы» имеют ряд разновидностей, одной из которых является «паук» (англ. «spider»). Он непрерывно «ползает по сети», переходя с одной веб-страницы к другой с целью сбора статистических данных о самой «паутине» (Web) и (или) формирования некоторой БД с индексами содержимого веб.
Автоматизированные агенты «спайдеры» регулярно (постоянно или в установленные периоды времени) сканируют веб-страницы и актуализируют БД адресов (гиперссылки), средства индексирования информации, расположенные по указанным адресам. Полученные индексы используются для быстрого и эффективного поиска по набору терминов, задаваемых пользователем. В разных системах эта цель достигается различным образом.
Одни посылают «агентов» на каждую попадающуюся веб-страницу, индексируя все встречающиеся слова. Другие сначала анализируют БД адресов, определяя наиболее популярные (обычно подсчитывается число имеющихся ссылок на них). Именно эти веб-страницы в различной степени индексируются (только заголовки веб-страниц и ссылки, включая автоматическое аннотирование документов или весь текст).
Все чаще применяются «интеллектуальные агенты» – небольшие программы, обладающие способностью самообучаться, и действовать самостоятельно от имени своего владельца. Имея связь с компьютером пользователя, они выступают в роли персональных помощников, выполняющих ряд задач с применением знаний о потребностях и интересах пользователя. Интеллектуальные роботы-агенты ведут самостоятельный поиск в сети по собственным уникальным алгоритмам. Некоторые из них не только просматривают ключевые слова, но и осуществляют в Интернете семантический анализ информации, выявляя степень её смыслового соответствия поставленной задаче.
Существуют программы разработки уникальных роботов, выполняющих в сети заданные задачи. Методика их разработки, например, представлена в документе «GuidelinesforRobotWriters» по адресу: http://info.webcrawler.com/mak/projects/robots/guidelines.html.
В качестве примера таких систем приведём программу «MeltingPoint» выпущенную в апреле 1997 года компанией DocuworkLtd. (http://www.docuwork.com/) для поддержки исследований в Интернете, а также анализа получаемой информации и принятия на его основе управленческих решений (InternetResearchManager). Программа, работая совместно с браузером, обеспечивает перекрестные ссылки, «захват» и моментальную загрузку материалов, связанных с установленными пользователем правилами и темой для поиска. Пользователь может создавать в этой программе собственную базу знаний, добавляя ссылки и комментарии к включаемым в неё веб-страницам. При этом не ограничивается размер комментариев к конкретному универсальному указателю интернет-ресурсов (URL). MeltingPoint использует в среде Интернет/Интранет технологию «активного управления знаниями» (ActiveKnowledgeManagement).
Приведём наиболее популярные зарубежные и отечественные поисковые машины.
Эффективный доступ к информации в Интернете обеспечивают такие зарубежные поисковые системы (машины), как Альта-Виста (AltaVista), «Yahoo», «Google», «OpenText», «WebCrawler» и др. Их адреса в Интернете: www.altavista.com, www.yahoo.com, www.gogle.com, www.opentext.com,
AltaVista имеет одну из самых крупных индексных баз и всемирную зону охвата. Сервер расположен в США и имеется ряд зеркальных серверов в других странах. Данная система обрабатывает и русские серверы. AltaVista поддерживает полный булев поиск, поиск по фразам. Результаты ранжируются по релевантности.
Эти и другие узлы поисковых машин используют «пауков» для создания веб-каталогов. Интернет-справочные системы Yahoo, LookSmart, About и другие представляют подход, предполагающий вовлечение человеческого интеллекта в процессы отбора и аннотирования веб-сайтов. Каждая система имеет свои принципы и алгоритмы отбора и индексации веб-страниц и серверов. Так, например, Alta Vista даже в идеале берёт не более 60% информации с отдельного сервера, всё остальное остаётся неучтённым.
К отечественным поисковым машинам относятся:Апорт («Aport» АО Агама), Rambler (фирма StackLtd.), Яндех («Yandex» фирма CompTekInt), «Русская машина поиска», «Новый русский поиск», и др. Их адреса в Интернете: www.aport.ru, www.rambler.ru, www.yandex.ru, search.interrussia.com, www.openweb.ru соответственно) и др.
Поисковая система Rambler появилась в конце 1996 года, а Апорт работает с лета 1997 года и поддерживает все кириллические кодировки, выполняет поиск с учётом морфологического анализа, имеет гибкий язык запросов, возможность перевода запроса с русского на английский язык и наоборот. Поисковая система Яndex начала работать с конца сентября 1997 года. Она индексирует содержание российских и зарубежных веб-узлов. Нормализация слов происходит на основе специального алгоритма, что позволяет не хранить все словоформы в словаре. Яndex включает модули морфологического анализа и синтеза, индексации и поиска, а также набор вспомогательных модулей, таких как анализатор документов, языки разметки, конверторы форматов, сетевой «паук».
Все эти поисковые машины позволяют по ключевым словам, тематическим рубрикам и даже отдельным буквам оперативно находить в сети, например, все или почти все тексты, где эти слова присутствуют. При этом пользователю сообщаются адреса сайтов, где найденные ИР постоянно присутствуют. Однако ни одна из них не имеет подавляющих преимуществ перед другими. Для проведения надёжного поиска по сложным запросам специалисты рекомендуют использовать последовательно или параллельно 9одновременно) различные ИПС.
Поисковые машины создаются разработчиками и представляют различное специальное ПО. Выделим отечественную документо-фактографическую ИПС «Артефакт» (агентство «IntegrumTechno», www.integrum.ru). В ней используются оригинальные идеи и методы. ИПС «Артефакт» позволяет учесть в запросе любые факты, связанные с естественной структурой текста и дают возможность пользователям для формирования их запросов использовать необходимые логические операторы.
Поисковые машины производят автоматический поиск заданных пользователем параметров, как правило, ключевых слов. В результате их работы на компьютер пользователя передаётся первая группа (порция) обнаруженных ссылок, ранжированная (отсортированная) с учётом лучших показателей найденных вхождений (совпадений) искомых слов. Часто с ссылкой отражается краткая информация по документу или часть строки, в которой присутствуют заданные ключевые слова. Обычно общее число найденных ссылок на документы исчисляется тысячами. Если в первой порции пользователь не обнаруживает нужных ему документов, то он, нажав на специальную кнопку, может перейти к следующей группе и т.д. Конечно, перелистывать сотни страниц с найденными ссылками весьма утомительно и малопроизводительно (продуктивно). К сожалению, необходимые пользователю данные могут оказаться не на первых страницах с ссылками, полученными в результате проведённого поиска. Более того, нужных материалов может и вовсе не оказаться, что свидетельствует не только о том, что их попросту нет в Интернете. В подавляющем большинстве случаев это не так. Более вероятно, что пользователю не удалось правильно (точно) сформировать ПОЗ.
В этом случае можно предложить несколько стратегий, осуществляемых как отдельно, так и в совокупности:
1) повторно более точно сформировать ПОЗ (использовать несколько других ключевых слов, наиболее полно характеризующих объект поиска);
2) сузить зону поиска с учётом таких параметров, как: страна, язык, тема и др.;
3) активно использовать логические операции, например, ПОЗ «слово-1»& «слово-2» означает, что будут найдены в первую очередь веб-страницы, на которых одновременно присутствуют оба термина. При этом они могут быть как рядом, так и на некотором удалении друг от друга;
4) поиск по всем известным поисковым системам, ибо абсолютно аналогичные поиски приводят к различающимся результатам.
Несмотря на общие принципы построения, поисковые системы отличаются тематикой, её объёмом, классификацией и интерфейсами. Для удобства перемещения (навигации) по имеющимся на поисковых машинах разделам некоторые из них используют специальный раздел «Карта».
Важной особенностью (и одновременно, предоставляемой возможностью) многих поисковых машин является тематическая (тематические путеводители по Интернету) и иная классификации ИР, предоставляемая пользователям для более целенаправленного и быстрого поиска необходимых им данных. Как правило, тематическая классификация на них строится по иерархическим принципам, содержит несколько уровней вложения, позволяющих более детально идентифицировать ИР и, следовательно, более точно и быстро находить нужные пользователям данные. Ещё одной полезной сервисной функцией подобных классификаций является возможность увидеть подрубрики и суммарное количество ссылок, соответствующих той или иной теме, предлагаемой поисковой машиной. Например, на Яндексе тематическая рубрика «Наука и образование» (первый уровень вложения), включает подрубрику «Науки» (второй уровень вложения), а та, в свою очередь, – содержит подрубрики «Технические, Естественные, Гуманитарные…» (третий уровень вложения).
Тематические путеводители по ресурсам Интернета разрабатываются многими создателями поисковых машин, информационных и библиотечных сайтов и т.п. Библиотеки университета Ратгерс предлагают на веб-сайте комплекс путеводителей по отраслям и темам от искусства, бизнеса и медицины до математики и социальных наук. Крупный проект библиотек США в области создания онлайновых путеводителей по Интернету – INFOMINE (http://infomine.ucr.edu/Main.html). Кооперативный проект возглавляет библиотека университета Калифорнии и его поддерживают более 30 библиотек. Он включает веб-ресурсы, ориентированные на преподавателей, исследователей университетского уровня и студентов (описания БД, электронных журналов, электронных книг, списков рассылки и групп новостей, онлайновых библиотечных каталогов, статей, указателей и многих других видов электронных ресурсов). Ресурсы систематизированы по десяти основным разделам: пять имеют отраслевую направленность: 1) биология, земледелие, медицинские науки; 2) правительственная информация; 3) физические науки, инженерное дело, компьютеры и математика; 4) социальные и гуманитарные науки; 5) пространственное и исполнительское искусство). Два – посвящены учебно-методическим ресурсам школьного и высшего образования, остальные три – поисковые средства Интернета, карты и электронные журналы. В состав сведений о ресурсе входят: его название, аннотация, Интернет-адрес, предметные рубрики и ключевые слова, количество которых достаточно велико. Предметные рубрики и ключевые слова в полях (тэгах) «Related Subjects» и «Related Keywords» являются работающими ссылками, что позволяет вести поиск даже из структуры записи[1].
Интерфейс поисковых систем, как правило, содержит инструкции по проведению поиска, поля ввода ключевых слов и других поисковых параметров, а также всплывающие меню для выбора предлагаемых системой опций поиска. Напомним, что используются различные стратегии поиска: «простой», «расширенный» («дополнительный»), «профессиональный» («полный») и др. Практически все системы позволяют формировать запросы с включением в них логических операторов «AND», «OR» и «NOT».
При проведении поиска поисковые серверы обычно используют данные, хранящиеся в веб-страницах в тегах метаданных: <title>, <metaname=”keywords”> и <metaname=”description”>. Формируя свои страницы, следует отражать в этих тегах сведения о назначении сайта и его тематике.
При этом необходимо знать, что чем меньше количество ключевых слов включено в эти теги, тем с большей частотой они могут встречаться в текстах страниц сайта и, следовательно, тем выше их релевантность. Оптимальным считается частота таких слов не более 5%. Ключевых слов должно быть не очень много, они в большей степени должны состоять из одного или двух слов, образуя наиболее употребляемые термины. Чем большую релевантность имеют ключевые слова, тем большую конкурентоспособность они придают документу с точки зрения поисковых машин.
Полноту и точность ответа пользователь получает в зависимости от точности сформулированного им запроса. В результате поиска пользователю обычно предоставляется гораздо больше информации, чем ему необходимо, часть которой может вообще не иметь отношение к сформированному запросу. Так, если задать слово «аудио» (подразумевая аудиоинформацию), то в результате поиска можно получить значительное количество документов, не имеющих отношение к такому запросу, например, содержащих слово «аудит» или «аудиторию» и др. Легко заметить, что в данном случае многое зависит не только от того сколь грамотно был сформулирован запрос, но и от возможностей поисковых систем, которые весьма различны. При этом достаточно ярко проявляется «лесной синдром» (из-за леса не видно дров), заключающийся в том, что в полученных данных можно пропустить главные, необходимые сведения. Очевидно, никакие меры не являются исчерпывающими в условиях постоянного расширения среды и появления новых разнообразных ИР, что подтверждают, например, трудности поиска в WWW.
Простые запросы в виде отдельных достаточно распространённых терминов приводят к извлечению тысяч (сотен тысяч) документов, абсолютное большинство которых пользователю не требуется (информационный шум). Например, при поиске по слову «библи» можно получить сведения о библиотеках, библиотечном деле, библиографии, библиях, библиотеках компьютерных программ и др. В данном случае это свидетельство неверно сформулированного запроса.
Важным аспектом также является возможность таких систем поддерживать многоязычность, то есть способность обрабатывать запросы на различных языках. Пользователям предлагаются двуязычные словари, например, англо-русский/русско-английский «МультиЛекс» (www.medialingua.ru/ russian/ multilexonline), электронный переводчик на сервере public.elvis.ru и др. Кроме того, появились системы, осуществляющие мгновенный («на лету») перевод информационных ресурсов, найденных пользователем в Интернет и копируемых на его компьютер.
При создании собственных библиографических, полнотекстовых и иных информационных ресурсов следует обращать пристальное внимание на контроль за создаваемыми поисковыми инструментами (ключевыми словами, дескрипторами, тезаурусами, рубрикаторами). Важно определить, как и какие подобные элементы создаются, выявить возможность использования их опыта, а также чужих данных (в первую очередь – БО). Особенно это актуально при создании корпоративных ресурсов. Здесь приходится учитывать местные особенности, ориентированные на пользователей, определяющих тематику наиболее спрашиваемых ИР и глубину их рубрицирования. Фиксируя используемую пользователями терминологию, можно совершенствовать создаваемый поисковый аппарат.
Всё более актуальным является использование машиночитаемых тезаурусов. Зарубежные специалисты дают следующее определение этому термину: «электронный тезаурус – это словарь, предназначенный для анализа текста и информационного поиска, включающий широкий набор семантических отношений между составляющими его терминами»[2]. При этом дискуссируется потребность параллельно создавать аппарат ключевых слов. С.В. Жмайло ссылается на мнение зарубежных специалистов, утверждающих, что перспективы тезаурусов зависят от их интеграции в системы, осуществляющие полнотекстовый поиск [Там же].
Создаются системы, позволяющие эффективно вести поиск в полнотекстовых БД. Они базируются на использовании технологий синтаксического и морфологического анализа текста (разбивка на элементы, распознаваемые программой) и оперативной обработки текстов на естественных языках. В качестве примера можно привести упомянутую ранее отечественную систему «Артефакт».
Разработчики поисковых систем пытаются
адаптировать их под начинающих и «средних» пользователей Интернета, количество
которых неуклонно растёт. С этой целью ряд поисковых машин (AskJeeves, Alta
Система WWW содержит в себе разнообразные справочные данные и одновременно обеспечивает возможность доступа к каталогам крупнейших библиотек мира, а также позволяет «скачать» нужные программы, текстовые, графические и иные файлы. Так, Оксфордский каталог Englishlanguageteaching обеспечивает пользователей сведениями о словарях, учебниках, программных средствах, которые могут быть полезны им, например, при изучении английского языка. При этом точность и скорость проведения поиска зависят от правильного определения поисковых терминов и умения формировать запрос. Это же обстоятельство касается и количества получаемых данных, многие из которых могут оказаться бесполезными. Напомним, что для работы в англоязычных системах необходимо знание английского языка.
При организации одинакового запроса на разных поисковых машинах возможно получение различных по содержанию и широте охвата материалов.
Для начала самостоятельного поиска информационных ресурсов следует выбрать соответствующую поисковую машину. Для этого в браузере в строку записи адреса (англ. «Location» – местоположение) вводят электронный адрес поисковой машины и нажимают клавишу «Ввод». Например, «galaxy.einet.net» – старейшая справочная система в Интернете. Целесообразность обращения к специализированным поисковым машинам объясняется их способностью разыскивать актуальную, поддерживаемую ими, тематическую информацию.
Обычно на первой странице поисковой машины имеется некоторый список (перечень, меню, разделы) тем различных областей деятельности социума, по которым предлагается осуществлять поиск (например: наука, образование, искусство, техника, политика, бизнес и др.). Выбрав любую из них, пользователь попадает в новый перечень, детализирующий тему. Например, выбрав раздел «Искусство», можно перейти в меню, содержащее подразделы: литература, театр, музыка, кино и др. Таких вложений может быть несколько, и они образуют иерархическую структуру предметной области.
Можно не обращаться к тематическому поиску, а в специальной строке поиска (Search), расположенной, как правило, на первой Web-странице, задать ключевые слова, отражающие тему, материалы по которой разыскиваются. При этом на экране отображаются списки адресов ИР с названиями и краткими описаниями содержания каждого найденного сайта, то есть те страницы, на которых есть введенные в запросе слова.
Если необходимо найти ссылки на определённое словосочетание, поисковые сервера, например, Яндекс и Апорт предлагают заключить это словосочетание в кавычки и тогда поиск осуществляется лишь тех материалов, где оба слова стоят рядом.
Искусство построения запроса требует знаний особенностей каждой конкретной поисковой системы и наличия опыта работы с Интернетом вообще. Хотя некоторые поисковые машины предлагают квазиинтеллектуальные средства, позволяющие менее опытному пользователю, традиционно задавая вопросы на естественном языке, получать достаточно релевантные данные.
В строку запроса можно вводить и несколько слов, например, «библиотечное дело» и т.д. Таким образом, организация поиска данных в Интернете – творческий процесс, базирующийся на достаточном знании особенностей формирования поискового запроса и возможностях поисковых систем.
Поисковые системы позволяют формировать и достаточно сложные запросы. Можно подготовить запрос: найти документы некоего автора, изданные в период с… по… и содержащие некоторое ключевое слово в тексте искомых документов, например, «информацион*».
Обычно поиск в полнотекстовых БД осуществляется с использованием морфологических[3] анализаторов (как правило, русских и английских), позволяющих автоматически находить существующие словоформы по фрагменту слова, слову, фразе, даже если в словах запроса присутствуют некоторые опечатки. В этом случае одной из лучших отечественных систем с широкими возможностями составления поискового предписания является «Артефакт».
Результаты поиска отображаются на экране монитора компьютера порциями в виде нумерованного списка, содержащего ссылки на найденные веб-страницы. Количество одновременно выводимых страниц может вирироваться в определённых пределах (обычно от 10 до 100). В ряде случаев пользователь устанавливает их сам. В других случаях это осуществляется системой автоматически.
Важнейшими критериями релевантности (а тем более пертинентности) полученных в результате поиска данных (ссылок) являются полнота и точность. Большинством поисковых машин точность поиска игнорируется в виду сложности решения данной проблемы. Некоторые специалисты утверждают, что эта задача практически неразрешима на данном этапе. «Улучшение точности поиска является главной информационной проблемой следующего столетия»[4].
Результаты поиска могут визуализироваться на экране дисплея ПК в краткой (автор, заглавие, вид документа, возможна ссылка на местонахождение этой информации) или полной форме (дополнительно остальные элементы БО, рубрики, сиглы хранения и др.). Вариант полной формы полученного в результате поиска БО представлены на Рис. 18-1.
Рис. 18-1. Вариант отражения полученной в результате поиска
полной формы БО
Ряд поисковых систем предлагают варианты вывода результатов поиска на экран или принтер в различных форматах представления данных (dbf, MARC-подобные и др.).
Для решения задачи используются другие (метапоисковые) системы, обеспечивающие в результате получение суммарных данных с десятка поисковых систем, но при этом объём информации может быть весьма значительным. Частично данная проблема решается предоставлением ими общего списка, в начале которого будут данные, наиболее релевантные запросу. Другим способом удовлетворения потребностей пользователей явилось создание тематически узконаправленных поисковых систем на веб-сайтах – порталов.
Важность проблемы информационного поиска в Интернете породила целую отрасль, задача которой заключается в том, чтобы помочь пользователю в его навигации в киберпространстве. Составляют эту отрасль специальные поисковые инструменты. Условно их можно разделить на поисковые средства справочного типа или просто справочники (directories) и поисковые системы в чистом виде (search engines).
Крайне важно уметь точно определять вид конкретного поискового средства и не путать их, поскольку от выбора "оружия" во многом зависит стратегия поисковой деятельности и, в конечном итоге, результат.
Поисковые средства справочного типа, называемые еще каталогами или рубрикаторами представляют собой электронные справочники, имеющие привычную для информационных работников иерархическую систематическую или логико-тематическую структуру, несколько напоминающую структуру систематического каталога библиотеки. Работа со справочниками позволяет ориентироваться в ресурсах Интернета в пределах отдельных отраслей знания, углубляясь от общего к частному, менять иерархические ветви и т.д. Они позволяют описать незначительную часть ресурсов Сети, да и то только весьма крупные объекты, такие как, например, отдельные сервера организаций и учреждений. Поэтому «справочники» отражают незначительную часть ресурсов Сети, в первую очередь наиболее заметные серверы. Основными критериями оценки справочников являются:
· объем;
· оперативность отражения новых или изменившихся источников;
· продуманность схемы классификации;
· перекрёстность структуры.
Объёмом справочника определяется уровень его надежности или «информационную прочность». От этого зависит степень доверия, которую пользователи питают к каждому конкретному каталогу. Поскольку материалы в Интернете появляются и изменяются ежедневно, важно насколько актуально содержание справочника, как быстро появляются ссылки на новые сайты и исправляются старые. Логичностью применяемой схемы классификации определяется степень легкости, с которой пользователи могут находить требуемые сведения. Система же перекрестных ссылок позволяет находить информацию, используя разные подходы (например, территориальный или отраслевой). В этом случае схема классификации должна автоматически выводить пользователя на искомый объект, какой бы путь поиска не был выбран.
[1] Thesaurus Information. American Society of Indexers/– http://www.asindexing.org/site/thesauri.shtml.
[2] Жмайло С.В. К вопросу об определении тезауруса//НТИ.–Сер.1.–2003.–№12.–С. 20–25 [C. 24].
[3] Морфологическая обработка заключается в выделении основы слова, которая называется ядерной частью слова, т.е. без словоизменительных морфем (окончаний).
[4] Жмайло С.В. К вопросу об определении тезауруса//НТИ.–Сер.1.–2003.–№12.–С. 20–25 [C. 21]