|
|
From: denis@elvis.ru (Denis Roudenko)
Фрагмент FAQ из comp.infosystems.wais :
-------------------------------------------------------------------------------
comp.infosystems.wais предназначена для обсуждения WAIS (Wide Area Information
Servers): сетевой полнотекстовой поисковой системы, разработанной Thinking
Machines, Apple Computer, Dow Jones, и KPMG Peat Marwick.
-------------------------------------------------------------------------------
WAIS это акроним для Wide Area Information Servers.
WAIS это сетевая информационная поисковая система. WAIS использует протокол
TCP/IP для стыковки клиентской прикладной программы с информационным сервером.
Клиентская часть имеет возможность получать тексты или малтимедийные документы
хранящиеся на сервере. Она запрашивает документы используя ключевые слова.
Сервер производит поиск по полному текстовому индексу документов и возвращает
список документов содержащих ключевые слова. После этого клиент может запросить
у сервера копии любых найденных документов.
Хотя название "Wide Area" подразумевает использование больших сетей, таких как
Интернет, для соединения по сети клиента и сервера, WAIS может работать между
клиентом и сервером на одной машине или в локальной сети.
WAIS использует протокол запросов Z39.50 для взаимодействия клиента и сервера.
Большое количество серверов работает постоянно [более 470 баз данных]. Их
содержимое охватывает диапазон от recipes and movies до библиографий,
технических документов и архивов телеконференций.
[...]
Несомненно, самый легкий способ получить доступ к WAIS, если Вы не хотите
получать полный дистрибутив и собирать свой собственный клиент, состоит в
запуске простейшего клиента на другой машине. Для этого Вам нужно
присоединиться к sunsite.unc.edu или wais.wais.com утилитой TELNET под именем
"wais". Это вызовет на исполнание swais (Screen WAIS). swais - это интерфейс к
WAIS, основанный на пакете curses, поэтому если у Вас возникнут проблемы, то
это результат только Ваших терминальных установок. Если Вы не уверены в
правильности команд, попробуйте использовать знак вопроса в в качестве промпта.
Даже если Вы не имеете полного доступа к Интернету, Вы можете использовать
преимущества WAIS через WAIS-mail сервера. Несмотря на то, что это довольно
примитивный инструмент по сравнению с интерактивным использованием, он
работает.
Для получения информации об использовании WAIS-mail серверов, отправьте письмо
по адресу waismail@elvis.ru тело которого содержит одно слово
help
===================================================================
Далее от меня:
FAQ по WAIS есть на ftpmail@elvis.ru или по ftp в директории /pub/FAQ/infosystems/WAIS/.
Конференция: comp.infosystems.wais
Списки рассылки: около 10, перечисленны в FAQ.
WAIS сервер содержащий базу по тематикам существующих wais-серверов (по-моему):
wais://quake.think.com:210/directory-of-servers
------------------------------------------------
Денис Руденко.
denis@elvis.ru
http://www.elvis.ru/~denis/wwwhome/homepage.html
------------------------------------------------
Что такое WAISmail.
-------------------
Система WAISmail позволяет производить поиск информации в различных базах
данных, посылая запросы по электронной почте и по почте же получать ответы.
Базы данных при этом могут находиться в любой точке мира.
Какие базы данных доступны и как найти нужную.
----------------------------------------------
Из русскоязычных баз данных в настоящий момент доступны базы, строящиеся
на основе содержимого соответствующих конференций relcom.commerce.*
relcom-commerce-audio-video Аудио-видео-киноаппаратура
relcom-commerce-cars Автомобили, прочие транспортные средства
relcom-commerce-chemical Химикаты и химикалии, удобрения
relcom-commerce-computers Компьютеры, модемы, др. аппаратное обеспечение.
relcom-commerce-construction Стройматериалы и т.п.
relcom-commerce-consume Косметика, одежда, обувь, парфюм.
relcom-commerce-energy Энергоносители, топливо
relcom-commerce-estate Недвижимость
relcom-commerce-food Продукты
relcom-commerce-food-drinks Напитки, спиртные и безалколгольные
relcom-commerce-food-sweet Кондитерские изделия, сахар
relcom-commerce-household Домашняя утварь (пылесосы и т.п.)
relcom-commerce-infoserv Информационный сервис
relcom-commerce-jobs Трудоустройство, вакансии
relcom-commerce-machinery Станки, оборудование
relcom-commerce-medicine Медицинские услуги, техника, препараты
relcom-commerce-metals Металлы
relcom-commerce-money Кредиты, депозиты, валюта
relcom-commerce-orgtech Оргтехника
relcom-commerce-other Все, для чего не нашлось места в других commerce
relcom-commerce-publishing Книги, пр. печатная продукция
relcom-commerce-software Программное обеспечение
relcom-commerce-stocks Фондовый рынок
relcom-commerce-talk Обсуждение вопросов, связанных с коммерческими конференциями
relcom-commerce-tobacco Табачные изделия
relcom-commerce-transport Транспортные средства
relcom-commerce-tour Туризм, отдых, развлечения
relcom-banktech Банковское оборудование
relcom-currency Свежие курсы валют
relcom-education Образование
relcom-commerce - содержимое всех коммерческих конференций Релком
spb-fido-business - продажа/покупка (в основном компьютеров и комплектующих)
spb-fido-job - сообщения о трудоустройстве в СПб
spb - все конференции spb.* (в основном пустые, кроме
двух вышеозначеных)
cspace - содержимое всех многочисленных, но небольших конференций
cspace.* (в основном СПб и Украина).
Базы данных со всего света
Остальные базы данных англоязычные и полный их список здесь не приводится - их
более 500. Найти нужную базу данных можно, отправив на адрес:
waismail@dux.ru
письмо, содержащее ключевые слова. Например, письмо из одной строки:
food market
приведет к поиску базы данных, содержащей в ОПИСАНИИ слова "food" или "market".
В ответ Вы получите письмо со списком баз данных в виде:
******************************************************************************
Record 1:
(:source
:version 3
:ip-address "128.193.124.4"
:ip-name "nostromo.oes.orst.edu"
:tcp-port 210
:database-name "agricultural-market-news"
:cost 0.00
:cost-unit :free
:maintainer "wais@nostromo.oes.orst.edu"
:subjects "business marketing commodities agriculture agricultural"
:description "Server created with WAIS release 8 b3.1 on Oct 5 22:48:47 199
1 by wais@nostromo.oes.orst.edu
This server contains the agricultural commodity market reports compiled
by the Agricultural Market News Service of the United States Department
of Agriculture. There are approximately 1200 reports from all over the
United States. Most of these reports are updated daily. Try searching for
'portland grain.'
For more information contact: wais@oes.orst.edu
"
)
Содержимое поля :database-name и будет названием базы для последующих запросов.
Как воспользоваться системой WAISmail.
--------------------------------------
Нужно послать письмо по адресу waismail@dux.ru, в котором указать:
help - чтобы получить данную подсказку.
Система WAISmail может использоваться в двух основных режимах:
- разовых запросов;
- фильтрации вновь приходящих сообщений;
Как воспользоваться системой WAISmail
в режиме разовых запросов.
--------------------------------------
Нужно послать письмо по адресу waismail@dux.ru , в котором указать:
source <имя базы данных>
<необязательные операторы>
<ключевые слова>
Первая строка письма ОБЯЗАТЕЛЬНО должна начинаться со слова source, question,
depth, compress, charset или help. Если одно из этих слов не найдено, запрос
рассматривается как запрос на поиск базы данных.
<имя базы данных> - или имя одной из русскоязычных баз данных (перечислены выше)
или имя базы полученное через запрос к серверу.
NB. Обратите внимание, что в операторе source название конференции (базы)
пишется через '-', а не '.' как в news.
NB. Большие и маленькие буквы в НАЗВАНИИ БАЗЫ данных считаются РАЗЛИЧНЫМИ!
В искомых же ДОКУМЕНТАХ большие и маленькие буквы НЕ РАЗЛИЧАЮТСЯ!!!
<ключевые слова> - могут быть любыми. Это могут быть отдельные слова
(сталь продажа) или предложения (Найти все статьи по продаже сахара). Но
будьте внимательны - поиск по ключевым словам не понимает СМЫСЛ запроса,
а только ищет документы, в которых ВСТРЕЧАЮТСЯ слова из запроса.
Подразумевается, что если в документе ЕСТЬ данные слова, то и смысл
его СООТВЕТСТВУЕТ запросу, что в значительной степени верно, хотя и отнюдь
не всегда. И дело в "искусстве" составления запросов.
WAISmail при поиске учитывает:
- количество слов из запроса найденных в документе;
- частоту встречаемости слов запроса в языке (редкие слова считаются более
значимыми, более характерными);
- отношение найденных слов к общему количеству слов в документе;
В соответствии с этими критериями найденные документы сортируются в выборке
по убыванию степени соответствия запросу. В начале выборки находятся
наиболее соответствующие запросу документы.
На сервере waismail@dux.ru допускается задание ключевых слов в ЛЮБОЙ из
возможных словоформ русского языка, в том числе и НЕПРАВИЛЬНЫХ. Например,
считаются эквивалентными и, следовательно, выбираются по запросу следующие
словоформы:
имя, имени, ..., именами, именах;
марка, ..., марок, ..., марках;
ухо, ..., ушей, ..., ушах;
крюк, крючья, ..., крюках, крючьях;
купить, куплю, купит, ..., купите;
.................................
Т. е. достаточно задать в запросе одну из словоформ, а выберутся и остальные.
Помимо того, что упрощается написание запросов, такой способ задания искомых
основ позволяет получать более точные выборки по сравнению с системами,
использующими метасимвол "*" в конце слова, где * означает любое количество
любых символов (до пробела). Например, медици*. Использование метасимвола
нередко дает совершенно неприемлемый результат, что хорошо видно на следующем
примере:
Так поиск упоминаний о меди по шаблону 'мед*',
помимо искомых форм - медь, меди, ..., даст также и - медведь,...,
медицина,...,медик, ..., медикаменты, ..., медитация, ... и прочее к
делу не относящееся.
Допускается, также, построение логических выражений с помощью операций
AND (и), OR (или), NOT (не).
Например,
спирт AND Royal
- ОДНОВРЕМЕННОЕ присутствие в документе слов 'спирт' И 'Royal'
спирт OR Royal
- присутствие ХОТЯ БЫ ОДНОГО из слов 'спирт' ИЛИ 'Royal'
спирт NOT Royal
- присутствие слова 'спирт' И ОДНОВРЕМЕННОЕ ОТСУТСТВИЕ слова 'Royal'
куплю AND спирт NOT Royal NOT дайджест
- ОДНОВРЕМЕННОЕ присутствие в документе слов 'куплю' И 'спирт'
И ОТСУТСТВИЕ при этом слов 'Royal' и 'дайджест'
На сервере waismail@dux.ru заведены СИНОНИМЫ о покупке и продаже,
поэтому достаточно в запросе указать любое из этих слов, например
'продажа' - WAISMAIL при этом выберет и статьи с СИНОНИМАМИ слова
'продажа' в ДАННОЙ ситуации: продаем,..., продаю,..., предагаем,
...,осуществляем поставки,..., реализуем,...,поставляем,... - и
даже 'всегда на складе,..., в широком ассортименте,...' и пр.
Поэтому запросы
продажа AND леса
реализуем AND лес
являются синонимичными и дают одинаковый результат.
Если указать 'покупка' WAISMAIL при этом выберет и статьи с СИНОНИМАМИ
слова 'покупка' в ДАННОЙ ситуации: покупаем,..., куплю,..., закупаем,
...,осуществляем закупки,...,приобретем,.... и т. д.
В общем случае все слова, разделенные пробелами, знаками препинания ( . ,
: ; ' " \ / ( ) - ) считаются объединенными операцией OR. Это делается,
чтобы не пропустить документ, содержащий хотя бы одно из ключевых слов
запроса.
NB. Слова, содержащие знак переноса, воспринимаются как два слова!
NB. Ключевые слова должны быть заданы НА ОДНОЙ СТРОКЕ!
NB. После строки ключевых слов в письме НЕ ДОЛЖНО БЫТЬ НИЧЕГО (типа подписи)!
NB. В ОДНОМ письме обрабатывается только ОДИН запрос к ОДНОЙ базе!
NB. Не рекомендуется использовать сложные выражения с многочисленными
AND, OR, NOT - выражение может оказаться НЕОДНОЗНАЧНЫМ (скобки пока
не поддерживаются). Пишите ПРОЩЕ. РАЗБИВАЙТЕ сложные запросы на
несколько. Заодно не будут смешиваться и результаты.
Необязательные команды.
depth <число>
compress <одно из: zip gzip compress>
charset <одно из: alt oem>
Строка, начинающаяся с depth позволяет задать максимальное число ответов,
которые Вы хотите получить. При отсутствии depth - 50. Если Вы хотите
использовать эту команду, то ОБЯЗАТЕЛЬНО должны использовать слово depth и
ЧИСЛО за ним! В противном случае результат поиска может быть неожиданным.
Строка, начинающаяся с compress включает режим компрессии. Параметром
является имя программы:
zip - перед отправкой ответ будет обработан программами PKZIP и UUENCODE.
gzip - перед отправкой ответ будет обработан программами GZIP и UUENCODE.
compress - перед отправкой ответ будет обработан программами compress и
uuencode.
Если параметр задан неправильно будет использоваться PKZIP.
NB. При использовании команды compress и поиске по русскоязычной базе данных
ответ после распаковки будет представлен в кодировке КОИ-8.
Для представления данных в альтернативной или MS-Windows кодировках
следует указать:
charset alt
или
charset oem
соответственно.
Примеры:
source relcom-commerce-computers
Продажа компьютеров с процессором Pentium
Будет произведен поиск всех предложений по продаже в базе данных
составленной из конференции relcom.commerce.computers и выбраны
все предложения по продаже, из которых первыми будут идти те, в которых
предлагаются к продаже компьютеры с процессором Pentium.
source relcom-commerce-tobacco
depth 10
Сигареты Magna
Будет произведен поиск в базе данных составленной из конференции
relcom.commerce.tobacco и отобраны те статьи где упоминаются сигареты
Magna. Будут возращены первые 10 подходящих статей.
source relcom-commerce-food
compress zip
продажа AND сахар
Будет произведен поиск в базе данных составленной из конференций
relcom.commerce.food,
relcom.commerce.food.drinks,
relcom.commerce.food.sweet
и отобраны предложения по продаже сахара.
Результат будет упакован программой PKZIP и обработан программой UUENCODE
для передачи по сети.
Как воспользоваться системой WAISmail
в режиме фильтрации приходящих сообщений.
-----------------------------------------
Нужно послать письмо по адресу waismail@dux.ru, в котором указать:
question <имя команды> <имя фильтра>
source <имя базы данных>
<необязательные команды>
<ключевые слова>
Комманды:
add - добавить вопрос
del - удалить вопрос
rep - изменить данный запрос
show - показать текущие установки по данному запросу
<имя фильтра>
строка символов без пробелов, однозначно идентифицирующая фильтр.
Правила задания ключевых слов те же, что и в режиме разовых запросов.
Примеры:
question add one
source relcom-commerce-tobacco
depth 10
Сигареты Magna
Будет установлен фильтр, который из cегодняшней порции статей пришедших
в конференцию relcom.commerce.tobacco и отберет только те статьи где
упоминаются сигареты Magna. Отобранные первые 10 подходящих статей,
будут посланы на Ваш адрес.
question show one
Вы получите ответ вида:
Source: relcom-commerce-tobacco
depth: 10
compress:
charset:
keywords: Cигареты Магна
question replace one
source relcom-commerce-tobacco
depth 25
Магна Беломор
Такое письмо заместит Ваш существующий фильтр с именем "one" на
указанный в письме.
question delete one
Удалить установленный фильтр.
Фильтр может быть установлен на ЛЮБУЮ из имеющихся конференций Relcom/Usenet,
принимаемую узлом @dux.ru, а не только на индексируемые. Конкретные справки у
operator@dux.ru
NB. В настоящее время фильтрация пришедших сообщений производится
раз в сутки.
Если у Вас возникнут какие-то проблемы, напишите письмо по адресу:
operator@dux.ru и мы попытаемся Вам помочь.
~~~~~~~~~~~~~~~
Благодарности:
Мы выказываем свою изрядную признательность newsserv@elvis.msk.su за любезно
предоставленный по команде help прототип этого документа.
© faqs.org.ru