faqs.org.ru

 Главная > Интернет >

FAQ по поисковой системе WAIS

From: denis@elvis.ru (Denis Roudenko)

Фрагмент FAQ из comp.infosystems.wais :

-------------------------------------------------------------------------------
comp.infosystems.wais предназначена для обсуждения WAIS (Wide Area Information
Servers): сетевой полнотекстовой поисковой системы, разработанной Thinking
Machines, Apple Computer, Dow Jones, и KPMG Peat Marwick.
-------------------------------------------------------------------------------


WAIS это акроним для Wide Area Information Servers.

WAIS это сетевая информационная поисковая система. WAIS использует протокол
TCP/IP для стыковки клиентской прикладной программы с информационным сервером.
Клиентская часть имеет возможность получать тексты или малтимедийные документы
хранящиеся на сервере. Она запрашивает документы используя ключевые слова.
Сервер производит поиск по полному текстовому индексу документов и возвращает
список документов содержащих ключевые слова. После этого клиент может запросить
у сервера копии любых найденных документов.

Хотя название "Wide Area" подразумевает использование больших сетей, таких как
Интернет, для соединения по сети клиента и сервера, WAIS может работать между
клиентом и сервером на одной машине или в локальной сети.

WAIS использует протокол запросов Z39.50 для взаимодействия клиента и сервера.
Большое количество серверов работает постоянно [более 470 баз данных]. Их
содержимое охватывает диапазон от recipes and movies до библиографий,
технических документов и архивов телеконференций.

[...]

Несомненно, самый легкий способ получить доступ к WAIS, если Вы не хотите
получать полный дистрибутив и собирать свой собственный клиент, состоит в
запуске простейшего клиента на другой машине. Для этого Вам нужно
присоединиться к sunsite.unc.edu или wais.wais.com утилитой TELNET под именем
"wais". Это вызовет на исполнание swais (Screen WAIS). swais - это интерфейс к
WAIS, основанный на пакете curses, поэтому если у Вас возникнут проблемы, то
это результат только Ваших терминальных установок. Если Вы не уверены в
правильности команд, попробуйте использовать знак вопроса в в качестве промпта.

Даже если Вы не имеете полного доступа к Интернету, Вы можете использовать
преимущества WAIS через WAIS-mail сервера. Несмотря на то, что это довольно
примитивный инструмент по сравнению с интерактивным использованием, он
работает.

Для получения информации об использовании WAIS-mail серверов, отправьте письмо
по адресу waismail@elvis.ru тело которого содержит одно слово

  help


===================================================================

Далее от меня:

FAQ по WAIS есть на ftpmail@elvis.ru или по ftp в директории /pub/FAQ/infosystems/WAIS/.

Конференция: comp.infosystems.wais

Списки рассылки: около 10, перечисленны в FAQ.

WAIS сервер содержащий базу по тематикам существующих wais-серверов (по-моему):
        wais://quake.think.com:210/directory-of-servers

------------------------------------------------
                Денис Руденко.

                denis@elvis.ru
http://www.elvis.ru/~denis/wwwhome/homepage.html
------------------------------------------------


                        Что такое WAISmail.
                        -------------------

 Система WAISmail позволяет производить поиск информации в различных базах
 данных, посылая запросы по электронной почте и по почте же получать ответы.

 Базы данных при этом могут находиться в любой точке мира.

           Какие базы данных доступны и как найти нужную.
           ----------------------------------------------

 Из русскоязычных баз данных в настоящий момент доступны базы, строящиеся
 на основе содержимого соответствующих конференций relcom.commerce.*


relcom-commerce-audio-video     Аудио-видео-киноаппаратура
relcom-commerce-cars            Автомобили, прочие транспортные средства
relcom-commerce-chemical        Химикаты и химикалии, удобрения
relcom-commerce-computers       Компьютеры, модемы, др. аппаратное обеспечение.
relcom-commerce-construction    Стройматериалы и т.п.
relcom-commerce-consume         Косметика, одежда, обувь, парфюм.
relcom-commerce-energy          Энергоносители, топливо
relcom-commerce-estate          Недвижимость
relcom-commerce-food            Продукты
relcom-commerce-food-drinks     Напитки, спиртные и безалколгольные
relcom-commerce-food-sweet      Кондитерские изделия, сахар
relcom-commerce-household       Домашняя утварь (пылесосы и т.п.)
relcom-commerce-infoserv        Информационный сервис
relcom-commerce-jobs            Трудоустройство, вакансии
relcom-commerce-machinery       Станки, оборудование
relcom-commerce-medicine        Медицинские услуги, техника, препараты
relcom-commerce-metals          Металлы
relcom-commerce-money           Кредиты, депозиты, валюта
relcom-commerce-orgtech         Оргтехника
relcom-commerce-other           Все, для чего не нашлось места в других commerce
relcom-commerce-publishing      Книги, пр. печатная продукция
relcom-commerce-software        Программное обеспечение
relcom-commerce-stocks          Фондовый рынок
relcom-commerce-talk            Обсуждение вопросов, связанных с коммерческими конференциями
relcom-commerce-tobacco         Табачные изделия
relcom-commerce-transport       Транспортные средства
relcom-commerce-tour            Туризм, отдых, развлечения
relcom-banktech                 Банковское оборудование
relcom-currency                 Свежие курсы валют
relcom-education                Образование

relcom-commerce      - содержимое всех коммерческих конференций Релком

spb-fido-business    - продажа/покупка (в основном компьютеров и комплектующих)
spb-fido-job         - сообщения о трудоустройстве в СПб
spb                  - все конференции spb.* (в основном пустые, кроме
                       двух вышеозначеных)
cspace               - содержимое всех многочисленных, но небольших конференций
                       cspace.* (в основном СПб и Украина).

 Базы данных со всего света

 Остальные базы данных англоязычные и полный их список здесь не приводится - их
 более 500. Найти нужную базу данных можно, отправив на адрес:
 waismail@dux.ru

 письмо, содержащее ключевые слова. Например, письмо из одной строки:

 food market

 приведет к поиску базы данных, содержащей в ОПИСАНИИ слова "food" или "market".
 В ответ Вы получите письмо со списком баз данных в виде:
 ******************************************************************************
 Record 1:


 (:source
    :version  3
    :ip-address "128.193.124.4"
    :ip-name "nostromo.oes.orst.edu"
    :tcp-port 210
    :database-name "agricultural-market-news"
    :cost 0.00
    :cost-unit :free
    :maintainer "wais@nostromo.oes.orst.edu"
    :subjects "business  marketing  commodities agriculture agricultural"
    :description "Server created with WAIS release 8 b3.1 on Oct  5 22:48:47 199
 1 by wais@nostromo.oes.orst.edu

 This server contains the agricultural commodity market reports compiled
 by the Agricultural Market News Service of the United States Department
 of Agriculture. There are approximately 1200 reports from all over the
 United States. Most of these reports are updated daily. Try searching for
 'portland grain.'

 For more information contact: wais@oes.orst.edu
 "
 )

 Содержимое поля :database-name и будет названием базы для последующих запросов.


                   Как воспользоваться системой WAISmail.
                   --------------------------------------

   Нужно послать письмо по адресу waismail@dux.ru, в котором указать:
 help - чтобы получить данную подсказку.

 Система WAISmail может использоваться в двух основных режимах:
  - разовых запросов;
  - фильтрации вновь приходящих сообщений;


                 Как воспользоваться системой WAISmail
                        в режиме разовых запросов.
                   --------------------------------------

   Нужно послать письмо по адресу waismail@dux.ru , в котором указать:

 source <имя базы данных>
 <необязательные операторы>
 <ключевые слова>

 Первая строка письма ОБЯЗАТЕЛЬНО должна начинаться со слова source, question,
 depth, compress, charset или help. Если одно из этих слов не найдено, запрос
 рассматривается как запрос на поиск базы данных.

 <имя базы данных> - или имя одной из русскоязычных баз данных (перечислены выше)
                     или имя базы полученное через запрос к серверу.

 NB. Обратите внимание, что в операторе source название конференции (базы)
     пишется через '-', а не '.' как в news.

 NB. Большие и маленькие буквы в НАЗВАНИИ БАЗЫ данных считаются РАЗЛИЧНЫМИ!
     В искомых же ДОКУМЕНТАХ большие и маленькие буквы НЕ РАЗЛИЧАЮТСЯ!!!

 <ключевые слова> - могут быть любыми. Это могут быть отдельные слова
 (сталь продажа) или предложения (Найти все статьи по продаже сахара). Но
 будьте внимательны - поиск по ключевым словам не понимает СМЫСЛ запроса,
 а только ищет документы, в которых ВСТРЕЧАЮТСЯ слова из запроса.
 Подразумевается, что если в документе ЕСТЬ данные слова, то и смысл
 его СООТВЕТСТВУЕТ запросу, что в значительной степени верно, хотя и отнюдь
 не всегда. И дело в "искусстве" составления запросов.
 WAISmail при поиске учитывает:
  - количество слов из запроса найденных в документе;
  - частоту встречаемости слов запроса в языке (редкие слова считаются более
    значимыми, более характерными);
  - отношение найденных слов к общему количеству слов в документе;
 В соответствии с этими критериями найденные документы сортируются в выборке
 по убыванию степени соответствия запросу. В начале выборки находятся
 наиболее соответствующие запросу документы.

 На сервере waismail@dux.ru допускается задание ключевых слов в ЛЮБОЙ из
 возможных словоформ русского языка, в том числе и НЕПРАВИЛЬНЫХ. Например,
 считаются эквивалентными и, следовательно, выбираются по запросу следующие
 словоформы:
    имя, имени, ..., именами, именах;
    марка, ..., марок, ..., марках;
    ухо, ..., ушей, ..., ушах;
    крюк, крючья, ..., крюках, крючьях;
    купить, куплю, купит, ..., купите;
    .................................
 Т. е. достаточно задать в запросе одну из словоформ, а выберутся и остальные.

 Помимо того, что упрощается написание запросов, такой способ задания искомых
 основ позволяет получать более точные выборки по сравнению с системами,
 использующими метасимвол "*" в конце слова, где * означает любое количество
 любых символов (до пробела). Например, медици*. Использование метасимвола
 нередко дает совершенно неприемлемый результат, что хорошо видно на следующем
 примере:
     Так поиск упоминаний о меди по шаблону 'мед*',
 помимо искомых форм - медь, меди, ..., даст также и - медведь,...,
 медицина,...,медик, ..., медикаменты, ..., медитация, ... и прочее к
 делу не относящееся.

 Допускается, также, построение логических выражений с помощью операций
 AND (и), OR (или), NOT (не).
 Например,

   спирт AND Royal

   - ОДНОВРЕМЕННОЕ присутствие в документе слов 'спирт' И 'Royal'

   спирт OR Royal

   - присутствие ХОТЯ БЫ ОДНОГО из слов 'спирт' ИЛИ 'Royal'

   спирт NOT Royal

   - присутствие слова 'спирт' И ОДНОВРЕМЕННОЕ ОТСУТСТВИЕ слова 'Royal'

   куплю AND спирт NOT Royal NOT дайджест

   - ОДНОВРЕМЕННОЕ присутствие в документе слов 'куплю' И 'спирт'
     И ОТСУТСТВИЕ при этом слов 'Royal' и 'дайджест'

 На сервере waismail@dux.ru заведены СИНОНИМЫ о покупке и продаже,
 поэтому достаточно в запросе указать любое из этих слов, например
 'продажа' - WAISMAIL при этом выберет и статьи с СИНОНИМАМИ слова
 'продажа' в ДАННОЙ ситуации: продаем,..., продаю,..., предагаем,
 ...,осуществляем поставки,..., реализуем,...,поставляем,... - и
 даже 'всегда на складе,..., в широком ассортименте,...' и пр.
 Поэтому запросы

      продажа AND леса
      реализуем AND лес

 являются синонимичными и дают одинаковый результат.

 Если указать 'покупка' WAISMAIL при этом выберет и статьи с СИНОНИМАМИ
 слова 'покупка' в ДАННОЙ ситуации: покупаем,..., куплю,..., закупаем,
 ...,осуществляем закупки,...,приобретем,.... и т. д.

 В общем случае все слова, разделенные пробелами, знаками препинания ( . ,
 : ; ' " \ / ( ) - ) считаются объединенными операцией OR. Это делается,
 чтобы не пропустить документ, содержащий хотя бы одно из ключевых слов
 запроса.

 NB. Слова, содержащие знак переноса, воспринимаются как два слова!

 NB. Ключевые слова должны быть заданы НА ОДНОЙ СТРОКЕ!

 NB. После строки ключевых слов в письме НЕ ДОЛЖНО БЫТЬ НИЧЕГО (типа подписи)!

 NB. В ОДНОМ письме обрабатывается только ОДИН запрос к ОДНОЙ базе!

 NB. Не рекомендуется использовать сложные выражения с многочисленными
     AND, OR, NOT - выражение может оказаться НЕОДНОЗНАЧНЫМ (скобки пока
     не поддерживаются). Пишите ПРОЩЕ. РАЗБИВАЙТЕ сложные запросы на
     несколько. Заодно не будут смешиваться и результаты.



                      Необязательные команды.

 depth <число>
 compress <одно из: zip gzip compress>
 charset  <одно из: alt oem>

 Строка, начинающаяся с depth позволяет задать максимальное число ответов,
 которые Вы хотите получить. При отсутствии depth - 50. Если Вы хотите
 использовать эту команду, то ОБЯЗАТЕЛЬНО должны использовать слово depth и
 ЧИСЛО за ним! В противном случае результат поиска может быть неожиданным.

 Строка, начинающаяся с compress включает режим компрессии. Параметром
 является имя программы:
 zip - перед отправкой ответ будет обработан программами PKZIP и UUENCODE.
 gzip - перед отправкой ответ будет обработан программами GZIP и UUENCODE.
 compress - перед отправкой ответ будет обработан программами compress и
            uuencode.

 Если параметр задан неправильно будет использоваться PKZIP.

 NB. При использовании команды compress и поиске по русскоязычной базе данных
     ответ после распаковки будет представлен в кодировке КОИ-8.
 Для представления данных в альтернативной или MS-Windows кодировках
 следует указать:
 charset alt
 или
 charset oem
 соответственно.


 Примеры:

 source relcom-commerce-computers
 Продажа компьютеров с процессором Pentium

 Будет произведен поиск всех предложений по продаже в базе данных
 составленной из конференции relcom.commerce.computers и выбраны
 все предложения по продаже, из которых первыми будут идти те, в которых
 предлагаются к продаже компьютеры с процессором Pentium.

 source relcom-commerce-tobacco
 depth 10
 Сигареты Magna

 Будет произведен поиск в базе данных составленной из конференции
 relcom.commerce.tobacco и отобраны те статьи где упоминаются сигареты
 Magna. Будут возращены первые 10 подходящих статей.

 source relcom-commerce-food
 compress zip
 продажа AND сахар

 Будет произведен поиск в базе данных составленной из конференций
 relcom.commerce.food,
 relcom.commerce.food.drinks,
 relcom.commerce.food.sweet
 и отобраны предложения по продаже сахара.
 Результат будет упакован программой PKZIP и обработан программой UUENCODE
 для передачи по сети.


                 Как воспользоваться системой WAISmail
               в режиме фильтрации приходящих сообщений.
               -----------------------------------------

   Нужно послать письмо по адресу waismail@dux.ru, в котором указать:

  question <имя команды> <имя фильтра>
  source <имя базы данных>
  <необязательные команды>
  <ключевые слова>

  Комманды:
  add	- добавить вопрос
  del   - удалить вопрос
  rep   - изменить данный запрос
  show  - показать текущие установки по данному запросу

  <имя фильтра>
  строка символов без пробелов, однозначно идентифицирующая фильтр.

  Правила задания ключевых слов те же, что и в режиме разовых запросов.

 Примеры:

 question add one
 source relcom-commerce-tobacco
 depth 10
 Сигареты Magna

 Будет установлен фильтр, который из cегодняшней порции статей пришедших
 в конференцию relcom.commerce.tobacco и отберет только те статьи где
 упоминаются сигареты Magna. Отобранные первые 10 подходящих статей,
 будут посланы на Ваш адрес.

 question show one

 Вы получите ответ вида:
 Source:   relcom-commerce-tobacco
 depth:    10
 compress:
 charset:
 keywords: Cигареты Магна

 question replace one
 source relcom-commerce-tobacco
 depth 25
 Магна Беломор

 Такое письмо заместит Ваш существующий фильтр с именем "one" на
 указанный в письме.

 question delete one
 Удалить установленный фильтр.

 Фильтр может быть установлен на ЛЮБУЮ из имеющихся конференций Relcom/Usenet,
 принимаемую узлом @dux.ru, а не только на индексируемые. Конкретные справки у
 operator@dux.ru

 NB. В настоящее время фильтрация пришедших сообщений производится
     раз в сутки.

 Если у Вас возникнут какие-то проблемы, напишите письмо по адресу:
 operator@dux.ru и мы попытаемся Вам помочь.
 ~~~~~~~~~~~~~~~

 Благодарности:

 Мы выказываем свою изрядную признательность newsserv@elvis.msk.su за любезно
 предоставленный по команде help прототип этого документа.

Вернуться в раздел "Интернет" - Обсудить эту статью на Форуме
Главная - Поиск по сайту - О проекте - Форум - Обратная связь

© faqs.org.ru