суббота, 13 ноября 2010 г.

Глупый поиск робко прячет, умный смело достает

Сегодня меня стукнула по голове очередная идея. Простая и примитивная, но в то же время, как мне кажется вполне эффективная. Предвзятость к результатам жизнедеятельности собственных мозгов понять вполне можно, даже если учесть что эти самые мозги обычно живут своей жизнью. Так вот идея заключается в создании возможности тематического поиска.

clip_image002

Естественно я не поверил, что такого не существует и немного поискал. Честно говоря, то, что я нашел - никакого отношения к моей идее не имеет. Вернее отдельные моменты совпадают, но не очень. Итак что ж за идея такая, и что уже доступно пользователям интернета.

Начну с того, что есть. Любой поисковик имеет возможности настройки собственного поиска, чтобы результаты лучше соответствовали тому, что человек ищет. В самом простом варианте мы можем указать сайты, на которых хотим искать, указать слова, которые должны быть в тексте и те, которых не должно быть. Мы можем искать результаты в определенном формате: фото, видео, файлы с определенным расширением. В более сложном мы можем создать настройку таким образом, чтобы результаты искались не на одном сайте, а на группе сайтов. Причем почти всегда группу сайтов мы настраиваем сами. Это удобно если мы хотим искать информацию исключительно на отдельных сайтах (например, конкурентах), но совсем не эффективно, если мы просто хотим найти определенную информацию. Причем сегодня одной тематики, завтра другой.. В последнем случае мы можем обратиться к различным каталогам и провести поиск по ключевым словам, чтобы найти сайты определенной тематики.

Но! А если я хочу найти не ключевые слова, а определенную информацию, но чтобы не рыть во всем интернете, я хочу проработать только сайты определенной тематики? И при этом нет ни малейшего желания создавать каталоги с многими тысячами сайтов. Вот тут получается засада.

Проблема поиска текстовой информации всегда сталкивается с тем, что одни и те же слова могут обозначать разные понятия, и наоборот одни и те же понятия можно описать разными терминами. И если, например, мы хотим найти альпинистскую кошку, ту которая металлическая и с крюками, то вполне вероятно что найдем кучу историй про кошек (домашних животных) и альпинистов.

clip_image004

Да есть сайты, которые ищут информацию на сайтах определенной тематики, при этом сами ведут каталог, избавляя нас от монотонной работы. Но их результаты обычно хуже гуглового или яндексового, и это лишь сайты определенной тематики, а нам иногда приходится искать по разным тематикам.

Вот тут, если бы я писал научную статью, я бы сказал: Возникает важная и актуальная задача создания поискового сервиса, в котором пользователь мог бы сам указывать тематику сайтов наиболее подходящую для него в данный момент. Ну, или где-то так. Давно научные статьи не писал.

Что же я предлагаю-то? А предлагаю я скрестить ужа с едавом, в смысле ежа с удавом. Т.е. у нас есть каталоги: Dmoz, Google, Yandex и прочая… В них сайты разделены по категориям, при этом владельцы сайтов, обычно, крайне заинтересованы туда попасть, и главное попасть не просто туда, а в наиболее релевантную категорию. О!

Так вот было бы неплохо, если бы при поиске в обычных поисковиках (Google, Yandex, Bing, Yahoo, Ramber) можно было выбрать, внутри каких тематик искать информацию, так же, как это сейчас сделано с возможностью искать по сайту. А дальше движок сам фильтрует общие результаты запроса, чтобы в них остались результаты только из указанных категорий.

При учете очень большого различия в структуре перечисленных каталогов, к сожалению единую структуру пока создать нельзя. А с учетом вложенности и разветвленности, желательно чтобы структура каталога имела какое-то подобие визуального представления.

Дополнительно, можно сделать так: вводится обычный поисковый запрос, а система показывает в каких тематиках (в смысле на сайтах этих тематик) этот запрос показал сколько результатов. А пользователь уже выбирает нужные категории для фильтрации.

Также можно фильтровать тексты с уникальностью меньше заданной (к примеру 70%), выводя, как один результат с возможностью раскрытия списка.

Вполне возможно, что такое уже есть. Но я так сходу не нашел. Если кто знает системы, работающие по такому принципу – прошу не ругать меня, а подсказать адреса. Лично я из того, что знаю могу назвать только nigma.ru как наиболее подходящий и сколько ни будь универсальный.

Ну, в общем, где-то так.

Комментариев нет:

Отправить комментарий

Related Posts Plugin for WordPress, Blogger...
Rambler's Top100