Продвижение сайтов в поисковиках...

  Поисковая система состоит из следующих основных компонентов:

   Spider (паук) - браузероподобная программа, которая скачивает веб-страницы.

   Crawler (краулер, «путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице.

   Indexer (индексатор) - программа, которая анализирует веб-страницы, скаченные пауками.

   Database (база данных) – хранилище скачанных и обработанных страниц.

   Search engine results engine (система выдачи результатов) – извлекает результаты поиска из базы данных.

   Web server (веб-сервер) – веб-сервер, который осуществляет взаимодействие между пользователем и остальными компонентами поисковой системы.

   Детальная реализация поисковых механизмов может отличаться друг от друга (например, связка Spider+Crawler+Indexer может быть выполнена в виде единой программы, которая скачивает известные веб-страницы, анализирует их и ищет по ссылкам новые ресурсы), однако всем поисковым системам присущи описанные общие черты.

   Spider. Паук - это программа, которая скачивает веб-страницы тем же способом, что и браузер пользователя. Отличие состоит в том, что браузер отображает информацию, содержащуюся на странице (текстовую, графическую и т.д.), паук же не имеет никаких визуальных компонент и работает напрямую с html-текстом страницы (вы можете сделать «просмотр html-кода» в вашем браузере, чтобы увидеть «сырой» html-текст).

   Crawler. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

   Indexer. Индексатор разбирает страницу на составные части и анализирует их. Выделяются и анализируются различные элементы страницы, такие как текст, заголовки, структурные и стилевые особенности, специальные служебные html-теги и т.д.

   Database. База данных - это хранилище всех данных, которые поисковая система скачивает и анализирует. Иногда базу данных называют индексом поисковой системы.

   Search Engine Results Engine. Система выдачи результатов занимается ранжированием страниц. Она решает, какие страницы удовлетворяют запросу пользователя, и в каком порядке они должны быть отсортированы. Это происходит согласно алгоритмам ранжирования поисковой системы. Эта информация является наиболее ценной и интересной для нас – именно с этим компонентом поисковой системы взаимодействует оптимизатор, пытаясь улучшить позиции сайта в выдаче, поэтому в дальнейшем мы подробно рассмотрим все факторы, влияющие на ранжирование результатов.

   Web server. Как правило, на сервере присутствует html-страница с полем ввода, в котором пользователь может задать интересующий его поисковый термин. Веб-сервер также отвечает за выдачу результатов пользователю в виде html-страницы.

Каждый из нас хотя бы раз пытался представить, каким станет мир вокруг через пять, десять или сто лет, какое место займет сам человек в этом мире ближайшего и далекого будущего. Несмотря на всевозможные точки зрения, тенденция очевидна – развитие цивилизации происходит по пути предвосхищения потребностей и желаний человека, обеспечения быстрого и удобного информационного обмена и в целом комфортного существования в окружающем мире. Отсюда всевозможные компьютеры, сети, андроиды, роботы и т.п. n-го поколения.

Наиболее ярко попытки понять стремления человечества выражаются в развитии виртуального пространства.

В будущем веб сможет понимать ссылки и желания пользователя. Так считают британские специалисты. Создатель всемирной паутины, Тим Бернерс Ли, предсказал функционирование Интернета как семантической сети, которая позволит анализировать, понимать запросы пользователей и выдавать абсолютно релевантные данные. Сеть сможет не просто находить связи между различными сайтами, но и определять связи между людьми, их географическим положением, информацией, которую они пытаются найти.

На первый взгляд, идея кажется довольно фантастичной. Чтобы прогнозы господина Тима Бернерса Ли стали реальностью, необходимы новые технологии, иные подходы к установлению взаимосвязей между информацией, источниками информации, людьми.

Например, если пользователь ищет информацию о яблоках, что в этом случае ему смогут предложить поисковые системы? Рецепты яблок, способы выращивания яблонь, ближайшие к месту нахождения пользователя рестораны, где готовят яблочный штрудель? Или историю Apple и ближайший магазин, где продается ipod?

Все существующие системы поиска основаны на текстовых запросах, однако наилучшим способом является использование наиболее полного запроса, а текст таковым не является по умолчанию. Задача особенно усложняется, когда речь идет о поиске нетекстовой информации – изображениях, видео, музыке. Каждый, кто пытался хотя бы раз найти определенную фотографию или ресурс, на котором выложены нужные фотографии в Интернете, знает, что поиск не дает результатов, если не известно название файла или отсутствуют текстовые описания. Результаты поиска зависят от качества текстового запроса пользователя, качества текстового описания на сайте и алгоритма ранжирования ресурсов текстовыми поисковыми системами. В 95% случаев пользователь получает в ответ на свой запрос большое количество ресурсов, лишь формально относящихся к сути запроса.

Некоторые поисковые системы заявляют, что текстовый поиск хорошо работает для слов, написанных правильно, и проверка правописания решает проблему понимания пользователя. Но всегда ли достаточно слов, чтобы выразить свои мысли? Всегда ли мы точно знаем, что именно ищем или чего ждем? А если нужно найти контент на китайском сайте, не зная ни одного иероглифа?

Серьезной попыткой изменить поиск в веб-пространстве является созданная российской компанией Recogmission LLC универсальная поисковая система www.picollator.ru. Важными шагами на пути к реализации глобального проекта по разработке уникальной поисковой системы стали работы Александра Юдашкина, основателя и генерального директора Recogmission, над созданием корпоративных систем идентификации личности по цифровым изображениям CRIMNET, интернет-порталов на базе технологий распознавания образов. Отсчёт реализации идей распознавания объектов на изображениях начался в 1992 году, тогда же стала формироваться команда Recogmission.

Первая версия Picollator, основанная на разработанных Recogmission технологиях локализации объектов и распознавания образов, оказалась способной находить веб-ресурсы с изображениями, похожими на загружаемое пользователем фото. При этом результаты поиска были основаны исключительно на содержании изображений, а не текстовых описаниях. В отличие от текста, изображение является очень сжатым по способу подачи, но экстенсивным запросом, поскольку содержит слишком много информации. А что если объединить текст и изображение в одном запросе? Можно сказать - картинку словом не заменишь, в то же время картинку словом не испортишь.

Эта задача решена в новой версии, которую можно назвать поисковой системой нового поколения. И это не преувеличение. Аналогов Picollator в Интернете на текущий момент нет. По сути, система пытается понять, что именно ищет пользователь, используя различные виды данных в качестве поискового запроса. Совместное применение технологий распознавания образов и индексации текстовой и мультимедийной информации позволяет находить ресурсы, содержащие релевантные данные. Тем самым, авторам удалось разработать и применить принципиально новый подход к ранжированию результатов поиска, отличающийся от традиционных подходов концентрацией и на визуальном, и на формальном содержании.

По словам Александра Юдашкина, генерального директора Recogmission LLC, «существующая практика поиска информации в Интернет является устаревшей, поскольку: во-первых, наличие текстовых описаний не является гарантией соответствия найденной информации запросу пользователя; и, во-вторых, используемые алгоритмы ранжирования ресурсов недостаточным образом учитывают релевантность, а скорее приводят к повышению значимости известных веб-сайтов, порой не содержащих вообще нужной информации. На этом, конечно, строится бизнес многих компаний, но, к сожалению, это ограничивают информационную конкуренцию ресурсов в Интернет. Для пользователя размер сайта, число ведущих на него ссылок и т.д. далеко не всегда имеют значение».

В связи с этим данная разработка имеет практическую ценность для каждого интернет-пользователя, который хотя бы раз безуспешно пытался найти нужную информацию в киберпространстве. Комбинирование данных в запросе существенно сокращает продолжительность поиска и повышает качество результатов.

Необычным результатом стала возможность обработки рисунков. Считается, что способность сравнивать реальные лица и портреты присуща только людям и свидетельствует о высоком уровне интеллекта, способном к обобщениям. Однако технологии Picollator опровергают это мнение. Система способна обрабатывать картины и находить фотографии изображенных людей, даже если речь идет о портрете персоны n-го века.

Задача обучить искусственный интеллект аналогично природному является довольно сложной. Вместе с тем, многие идеи, казавшиеся невероятными десятки лет назад, сегодня стали для нас привычной реальностью.

ПОИСКОВАЯ СИСТЕМА