История поисковых систем. История поисковых систем апорт, рамблер, гугл, яндекс Первый в мире поисковик

Во времена, когда только начиналось развитие интернета, объём доступной информации был сравнительно мал, и пользователей сети было немного. На начальных стадиях развития сети, ее использовали сотрудники университетов и исследовательских лабораторий для обмена информацией между учреждениями. В то время поиск информации в сети интернет был не актуальным, в отличие от нынешних дней.

Первым способом организации и систематизации доступа к информационным ресурсам стало создание каталогов сайтов. В них стали группировать ссылки согласно определенной тематике.

Первопроходцем области стал Yahoo, который появился в апреле 1994 года. С течением времени количество сайтов возрастало, и Yahoo добавил опцию поиска по каталогам. Это не была поисковая система в прямом смысле, потому что область поиска ограничивалась ресурсами каталога.

Впоследствии каталоги распространились и стали использоваться повсеместно, но и интернет не стоял на месте, а продолжал развиваться. Вместе с ним развивались и методы поиска. На данный момент каталоги почти утратили популярность, это объясняется тем, что современный каталог, даже если он содержит огромное количество ресурсов, сможет обеспечить доступ лишь к малой части информации, которая содержится в сети.

В наши дни самым большим каталогом сети является Open Directory Project или DMOZ, включающий в себя информацию о 5 миллионах ресурсов, но это относительно мало, если сравнивать его, например, с поисковой системой Google, которая содержит около 8 миллиардов документов.

Полноценная же поисковая система вышла в свет только в 1994 году, ей стала система поиска WebCrawler.

Год спустя, в 1995 году появились проекты поисковых систем AltaVista и Lycos. Одна из них, в частности AltaVista, удерживала лидирующие позиции в области поиска в течение долгих лет.

По прошествии двух лет, в 1997 году, студенты Стэндфордского университета Сергей Брин и Ларри Пейдж разработали поисковую систему Google, являющуюся лидером в области поиска на сегодняшний день.

Этот год так же стал годом, когда было официально анонсировано о создании Российской поисковой системы Яндекс, которая и ныне лидирует в русскоязычном сегменте сети.

На данный момент существует только 3 поисковые системы, которые вышли на международный уровень, это MSN Search, Yahoo и Google. Эти системы имеют свои базы и поисковые алгоритмы. Большая часть остальных поисковиков используют их результаты. Так Mail.ru использует базу Yandex , search.aol.com — Google, а Lycos, AltaVista и AllTheWeb — Yahoo.

Лидером поиска на русских просторах интернета на данный момент является Яндекс, за ним — Rambler, далее идут Google, Mail.ru, A port и KM.ru.

У поисковых систем разные алгоритмы работы, и чтобы занять хорошую позицию в поисковой выдаче и привлечь целевых посетителей, нужно знать особенности SEO оптимизации для разных поисковиков. Например

Принято считать, что история первых поисковиков российского сегмента интернета начинает свой отсчет с 1995 года. Именно в этом году пользователям Рунета стало доступно морфологическое расширение к поисковику Altavista. Практически следом за расширением появились оригинальные поисковики Апорт и Рамблер, которые и считаются первыми российскими поисковыми машинами.

AltaVista появилась в декабре 1995 г. и была поддержана самым мощным доступным на тот момент вычислительным сервером DEC Alpha. Это был самый быстрый поисковик, который мог обрабатывать миллионы поисковых запросов в день.

Апорт

Поисковая система Апорт была продемонстрирована широкой общественности на несколько месяцев раньше Рамблера в феврале 1996 года. На момент своего запуска машина производила поиск только по сайту russia.agama.com. В дальнейшем разработчики Апорта продемонстрировали крайнюю нерасторопность в развитии своего проекта, очень долго налаживая поиск, сначала по 4 серверам, потом по 6. Индексировать весь Рунет Апорт научился только к ноябрю 1997 года, тогда же и прошла его официальная . К этому моменту в русскоязычном сегменте уже успешно работал другой поисковик под названием Рамблер.

Несмотря на все эти обстоятельства, Апорту до начала 2000-х гг. удавалось успешно конкурировать с основными игроками рынка Рамблером и Яндексом, и входить в список лидеров поиска в Рунете. Впоследствии, компания создавшая эту поисковую систему была выкуплена телекоммуникационным холдингом, все разработки были прекращены, и Апорт быстро сдал свои позиции, уступив своим основным конкурентам.

На данный момент Апорт представляет из себя электронную торговую площадку, с большой базой фирм и компаний, предлагающих более 8 миллионов наименований товаров, в 1400 категориях.

Рамблер

Создать оригинальную российскую поисковую машину команда телекоммуникационной компании Стек решила еще в 1994 году. К тому моменту Стек уже имел определенный опыт в работе с сетью интернет, серверами и веб-сайтами. Работая с русским сегментом интернета, специалисты компании определили, что зарубежные поисковые машины практически не воспринимают кириллицу и страницы с несколькими кодировками, и очень плохо индексируют сайты Рунета.

Rambler» в переводе с английского языка - «странник», «бродяга», «праздношатающийся человек».

Ядро нового поисковика буквально за несколько месяцев написал программист Дмитрий Крюков. Работа над новой машиной финансировалась компанией Стек, создатель которой Сергей Лысаков активно помогал Крюкову в его весьма непростой работе. Название Рамблер и логотип будущей поисковой системы, также Дмитрий. Домен rambler.ru был зарегистрирован 26 сентября 1996 года, а 8 октября поисковая машина носящая название Rambler была выложена ее создателем в сеть. На тот момент новым поисковиком было проиндексировано 100 тысяч документов, что являлось продуманным и стратегически важным шагом, позволившим Рамблеру на несколько лет стать безоговорочным лидером поиска в Рунете.








Популярность поисковых систем в России, Украине и мире. История развития поисковых систем. Рамблер и Апорт – вымершие динозавры.
Я всегда утверждал и буду утверждать, что узкий специалист, не интересующийся ничем, кроме сугубо практических деталей, не сможет достичь настоящих высот в своей профессии. Такой человек становится не «узким», а «узколобым»:-) Поэтому давайте рассмотрим историю развития поисковых машин, а также то, какую долю рынка занимает каждый из поисковиков в настоящее время. Популярность поисковых систем в России и Украине – очень значимый момент для продвижения.

История развития поисковых систем . В далекие 90-е годы, когда Интернет только-только начал входить в жизнь, поисковых систем в современном понимании этого слова не существовало. Поиск нужного ресурса происходил через каталоги сайтов, где имевшиеся на тот момент Интернет-проекты упорядочивались по рубрикам. Поскольку пользователей в сети было немного, а сайтов и вообще мало – то такой способ структурирования данных был вполне удобным и адекватным.

Первой полноценной поисковой машиной стал проект WebCrawler. Принципиальное отличие от предшественников состояло в том, что этот поисковик осуществлял т.н. полнотекстовый поиск. Т.е. искал не только локально по какому-то каталогу, не только по мета-тегу Keywords, но анализировал полный текст веб-страницы, что позволяло успешно находить любые фразы (а не только те, которые вебмастер указал в описании своего сайта как ключевые).

Лично мне название WebCrawler ни о чем не говорит – это слишком далеко в прошлом, в России в те времена само слово-то Интернет не каждый слышал:-) А вот появившийся в 1996 Lycos уже на слуху у вебмастеров постарше, во всяком случае название это многим знакомо. Вскоре за Лайкосом была запущена лучшая поисковая система своего времени AltaVista – уж это-то имя вы наверняка слышали. Примерно до 2000 года АльтаВиста оставалась лидирующей поисковой системой в мире.

В 1998 году была создана компания Google. Ее разработчики, Сергей Брин и Лари Пэйдж, совершили революцию в качестве поиска, разработав алгоритм PageRank, позволяющий учитывать «вес» страницы, в зависимости от числа ссылок на нее. Это настолько радикально улучшило качество поиска, что Google стал быстрыми темпами завоевывать аудиторию и через несколько лет стал лидирующей поисковой машиной мира, которой и остается до сих пор. Помнится, году примерно в 2000, я в институте наблюдал спор между двумя студентами нашей группы о том, что Альтависта отстой, а Гугл ищет лучше:-)

Поисковая система Апорт . Разработка компании Агама, увидевшая свет в 1996 году. Проект, который в течение нескольких лет оставался лидирующей поисковой машиной Рунета. Пишу это и сам себя начинаю ощущать очень древним:-) Ведь когда-то, будучи студентами, именно Апортом мы и пользовались для поиска. Других альтернатив не было, да они были и не нужны, ведь Aport прекрасно справлялся со своей задачей.


Прекрасный старт, однако, не обеспечил столь же прекрасного развития в дальнейшем. Апорт был таким лакомым кусочком, что несколько раз менял владельцев, с каждым разом продаваясь все дороже и дороже. Именно это его, судя по всему, и погубило. На первый план вышел «эффективный менеджмент и маркетинг», а на техническое обеспечение банально «забили». После этого пользователи Рунета повернулись к Апорту задом – благо два других главных поисковика – Рамблер и Яндекс – активно боролись за место под солнцем.

Не помню уже точных дат, но сперва Апорт отказался от собственных алгоритмов ранжирования, начав использовать данные Яндекса, а пару лет назад и вовсе прекратил свое существование как поисковая система. Теперь на знаменитом домене расположен Интернет-магазин, причем не самого лучшего качества.

Эх… а ведь когда-то у Апорта был еще и свой каталог, в который вебмастера стремились попасть почти с той же силой, что нынче в Яндекс. Кстати, первый дизайн для Апорта разрабатывал Артемий Лебедев… практически одновременно с дизайном для Яндекса.

Поисковая система Рамблер . Рамблер был запущен все в том же 1996 году и почти десятилетие оставался одним из главных игроков на рынке. В отличие от Апорта, который «сошел на нет» очень и очень быстро, Рамблер скатывался к нынешнему «бомж-положению» медленно и с сопротивлением.


Практически до самого последнего момента у Рамблера продолжал работать свой поисковый движок, выдававший кстати неплохое качество. Подумать только – долгие годы Рамблер был вторым поисковиком Рунета, причем третьим шел вовсе не полудохлый уже Апорт, а могущественный Гугл!

Тем не менее, доля Рамблера на рынке все уменьшалась и уменьшалась, а в 2011 году он был выкуплен Яндексом и стал выдавать идентичные с Яндексом результаты. Так закончилась история Рамблера, некогда сильнейшего российского поисковика.

Поисковые системы Гугл и Яндекс . На данный момент по сути остались только две актуальные поисковые машины – Яндекс и Гугл. Всякого рода Лукосы и Альтависты давно забыты и в качестве поисковых сервисов не функционируют. Рамблер был куплен Яндексом и сейчас показывает результаты последнего. Апорт превратился в Интернет-магазин. Очень небольшую долю рынка удерживают Yahoo и Bing – поиск от компании Майкрософт. В России помимо Яндекса и Гугла существует еще Майл.ру, но он не имеет собственного поискового движка, а использует результаты поиска от Гугл, внося в них лишь незначительные коррективы.

Популярность поисковых систем в России, Украине и в мире . На данный момент рынок поиска в России поделен примерно так:

Яндекс – 63%
Гугл – 26%
Майл.ру – 8%
Рамблер – 1.5%
Бинг – 0.6%

На Украине соотношение существенно иное, Яндекс здорово отстает от своего главного конкурента, но потихоньку увеличивает свою долю рынка:

Гугл – 60%
Яндекс – 29%
Майл.ру – 6%

В мировом поиске лидер только один, абсолютный и безоговорочный – Гугл.

Кстати говоря, мы с вами можем испытывать заслуженную гордость за свою страну – только в России и в Китае были созданы свои собственные системы поиска. Больше нигде в мире качественных поисковых машин не появилось. В европейских странах – Франции, Германии и прочих – Гугл используют до 97-99% пользователей, т.е. альтернативы по сути нет.

Есть в этом и практический аспект – у российского вебмастера больше шансов получить посетителей из поиска. Часто бывает, что Яндекс сайт «любит», а гугл нет, или наоборот. Но и в том и в другом случае клиенты у сайта имеются. У наших западных коллег работает принцип «все или ничего».

Есть и второй момент – продвижение в Гугл и в Яндекс в определенной мере различается, и желание попасть в топ обоих лидеров накладывает свой отпечаток на модель раскрутки сайта.

Моя книга издана в бумажном варианте. Если этот учебник оказался для вас полезным - то вы можете отблагодарить меня не только морально, но и вполне осязаемо.
Для этого нужно перейти на

В архитектуру поисковой системы обычно входят:

Энциклопедичный YouTube

    1 / 5

    ✪ Урок 3: Как работает поисковая система. Введение в SEO

    ✪ Поисковая система изнутри

    ✪ Shodan - черный Google

    ✪ Поисковая система ЧЕБУРАШКА заменит Google и Яндекс в России

    ✪ Урок 1 - Как устроена поисковая система

    Субтитры

История

Хронология
Год Система Событие
1993 W3Catalog ?! Запуск
Aliweb Запуск
JumpStation Запуск
1994 WebCrawler Запуск
Infoseek Запуск
Lycos Запуск
1995 AltaVista Запуск
Daum Основание
Open Text Web Index Запуск
Magellan Запуск
Excite Запуск
SAPO Запуск
Yahoo! Запуск
1996 Dogpile Запуск
Inktomi Основание
Рамблер Основание
HotBot Основание
Ask Jeeves Основание
1997 Northern Light Запуск
Яндекс Запуск
1998 Google Запуск
1999 AlltheWeb Запуск
GenieKnows Основание
Naver Запуск
Teoma Основание
Vivisimo Основание
2000 Baidu Основание
Exalead Основание
2003 Info.com Запуск
2004 Yahoo! Search Окончательный запуск
A9.com Запуск
Sogou Запуск
2005 MSN Search Окончательный запуск
Ask.com Запуск
Нигма Запуск
GoodSearch Запуск
SearchMe Основание
2006 wikiseek Основание
Quaero Основание
Live Search Запуск
ChaCha Запуск (бета)
Guruji.com Запуск (бета)
2007 wikiseek Запуск
Sproose Запуск
Wikia Search Запуск
Blackle.com Запуск
2008 DuckDuckGo Запуск
Tooby Запуск
Picollator Запуск
Viewzi Запуск
Cuil Запуск
Boogami Запуск
LeapFish Запуск (бета)
Forestle Запуск
VADLO Запуск
Powerset Запуск
2009 Bing Запуск
KAZ.KZ Запуск
Yebol Запуск (бета)
Mugurdy Закрытие
Scout Запуск
2010 Cuil Закрытие
Blekko Запуск (бета)
Viewzi Закрытие
2012 WAZZUB Запуск
2014 Спутник Запуск (бета)

На раннем этапе развития сети Интернет Тим Бернерс-Ли поддерживал список веб-серверов, размещённый на сайте ЦЕРН . Сайтов становилось всё больше, и поддерживать вручную такой список становилось всё сложнее. На сайте NCSA был специальный раздел «Что нового!» (англ. What"s New! ) , где публиковали ссылки на новые сайты.

Первой компьютерной программой для поиска в Интернете была программа Арчи (англ. archie - архив без буквы «в»). Она была создана в 1990 году Аланом Эмтэджем (Alan Emtage), Биллом Хиланом (Bill Heelan) и Дж. Питером Дойчем (J. Peter Deutsch), студентами, изучающими информатику в университете Макгилла в Монреале . Программа скачивала списки всех файлов со всех доступных анонимных FTP -серверов и строила базу данных, в которой можно было выполнять поиск по именам файлов. Однако, программа Арчи не индексировала содержимое этих файлов, так как объём данных был настолько мал, что всё можно было легко найти вручную.

Развитие и распространение сетевого протокола Gopher , придуманного в 1991 году Марком Маккэхилом (Mark McCahill) в университете Миннесоты , привело к созданию двух новых поисковых программ, Veronica и Jughead . Как и Арчи, они искали имена файлов и заголовки, сохранённые в индексных системах Gopher. Veronica (англ. Very Easy Rodent-Oriented Net-wide Index to Computerized Archives ) позволяла выполнять поиск по ключевым словам большинства заголовков меню Gopher во всех списках Gopher. Программа Jughead (англ. Jonzy"s Universal Gopher Hierarchy Excavation And Display ) извлекала информацию о меню от определённых Gopher-серверов. Хотя название поисковика Арчи не имело отношения к циклу комиксов «Арчи» , тем не менее Veronica и Jughead - персонажи этих комиксов.

К лету 1993 года ещё не было ни одной системы для поиска в вебе, хотя вручную поддерживались многочисленные специализированные каталоги. Оскар Нирштрасс (Oscar Nierstrasz) в Женевском университете написал ряд сценариев на Perl , которые периодически копировали эти страницы и переписывали их в стандартный формат. Это стало основой для W3Catalog ?! , первой примитивной поисковой системы сети, запущенной 2 сентября 1993 года .

Вероятно, первым поисковым роботом, написанным на языке Perl, был «World Wide Web Wanderer» - бот Мэтью Грэя (Matthew Gray) из в июне 1993 года. Этот робот создавал поисковый индекс «Wandex ». Цель робота Wanderer состояла в том, чтобы измерить размер всемирной паутины и найти все веб-страницы, содержащие слова из запроса. В 1993 году появилась и вторая поисковая система «Aliweb ». Aliweb не использовала поискового робота , но вместо этого ожидала уведомлений от администраторов веб-сайтов о наличии на их сайтах индексного файла в определённом формате.

JumpStation , созданный в декабре 1993 года Джонатаном Флетчером, искал веб-страницы и строил их индексы с помощью поискового робота, и использовал веб-форму в качестве интерфейса для формулирования поисковых запросов. Это был первый инструмент поиска в Интернете, который сочетал три важнейших функции поисковой системы (проверка, индексация и собственно поиск). Из-за ограниченности ресурсов компьютеров того времени индексация и, следовательно, поиск были ограничены только названиями и заголовками веб-страниц, найденных поисковым роботом.

Поисковые системы участвовали в «Пузыре доткомов» конца 1990-х . Несколько компаний эффектно вышли на рынок, получив рекордную прибыль во время их первичного публичного предложения . Некоторые отказались от рынка общедоступных поисковых движков и стали работать только с корпоративным сектором, например, Northern Light .

Google взял на вооружение идею продажи ключевых слов в 1998 году, тогда это была маленькая компания, обеспечивавшая работу поисковой системы по адресу goto.com . Этот шаг ознаменовал для поисковых систем переход от соревнований друг с другом к одному из самых выгодных коммерческих предприятий в Интернете . Поисковые системы стали продавать первые места в результатах поиска отдельным компаниям.

Поисковая система Google занимает видное положение с начала 2000-х . Компания добилась высокого положения благодаря хорошим результатам поиска с помощью алгоритма PageRank . Алгоритм был представлен общественности в статье «The Anatomy of Search Engine», написанной Сергеем Брином и Ларри Пейджем, основателями Google . Этот итеративный алгоритм ранжирует веб-страницы, основываясь на оценке количества гиперссылок на веб-страницу в предположении, что на «хорошие» и «важные» страницы ссылаются больше, чем на другие. Интерфейс Google выдержан в спартанском стиле, где нет ничего лишнего, в отличие от многих своих конкурентов, которые встраивали поисковую систему в веб-портал. Поисковая система Google стала настолько популярной, что появились подражающие ей системы, например, Mystery Seeker (тайный поисковик).

Поиск информации на русском языке

В 1996 году был реализован поиск с учётом русской морфологии на поисковой машине Altavista и запущены оригинальные российские поисковые машины Рамблер и Апорт . 23 сентября 1997 года была открыта поисковая машина Яндекс . 22 мая 2014 года компанией Ростелеком была открыта национальная поисковая машина Спутник , которая на момент 2015 года находится в стадии бета-тестировании. 22 апреля 2015 года был открыт новый сервис Спутник. Дети специально для детей с повышенной безопасностью.

Большую популярность получили методы кластерного анализа и поиска по метаданным . Из международных машин такого плана наибольшую известность получила «Clusty» компании Vivisimo . В 2005 году в России при поддержке МГУ запущен поисковик «Нигма », поддерживающий автоматическую кластеризацию . В 2006 году открылась российская метамашина Quintura , предлагающая визуальную кластеризацию в виде облака тегов . «Нигма» тоже экспериментировала с визуальной кластеризацией.

Как работает поисковая система

Основные составляющие поисковой системы: поисковый робот , индексатор , поисковик .

Как правило, системы работают поэтапно. Сначала поисковый робот получает контент, затем индексатор генерирует доступный для поиска индекс, и наконец, поисковик обеспечивает функциональность для поиска индексируемых данных. Чтобы обновить поисковую систему, этот цикл индексации выполняется повторно .

Поисковые системы работают, храня информацию о многих веб-страницах, которые они получают из HTML страниц. Поисковый робот или «краулер» (англ. Crawler ) - программа, которая автоматически проходит по всем ссылкам, найденным на странице, и выделяет их. Краулер, основываясь на ссылках или исходя из заранее заданного списка адресов, осуществляет поиск новых документов, ещё не известных поисковой системе. Владелец сайта может исключить определённые страницы при помощи robots.txt , используя который можно запретить индексацию файлов, страниц или каталогов сайта.

Поисковая система анализирует содержание каждой страницы для дальнейшего индексирования. Слова могут быть извлечены из заголовков, текста страницы или специальных полей - метатегов . Индексатор - это модуль, который анализирует страницу, предварительно разбив её на части, применяя собственные лексические и морфологические алгоритмы. Все элементы веб-страницы вычленяются и анализируются отдельно. Данные о веб-страницах хранятся в индексной базе данных для использования в последующих запросах. Индекс позволяет быстро находить информацию по запросу пользователя . Ряд поисковых систем, подобных Google, хранят исходную страницу целиком или её часть, так называемый кэш , а также различную информацию о веб-странице. Другие системы, подобные системе AltaVista, хранят каждое слово каждой найденной страницы. Использование кэша помогает ускорить извлечение информации с уже посещённых страниц . Кэшированные страницы всегда содержат тот текст, который пользователь задал в поисковом запросе. Это может быть полезно в том случае, когда веб-страница обновилась, то есть уже не содержит текст запроса пользователя, а страница в кэше ещё старая. Эта ситуация связана с потерей ссылок (англ. linkrot ) и дружественным по отношению к пользователю (юзабилити) подходом Google. Это предполагает выдачу из кэша коротких фрагментов текста, содержащих текст запроса. Действует принцип наименьшего удивления , пользователь обычно ожидает увидеть искомые слова в текстах полученных страниц (User expectations ). Кроме того, что использование кэшированных страниц ускоряет поиск, страницы в кэше могут содержать такую информацию, которая уже нигде более не доступна.

Поисковик работает с выходными файлами, полученными от индексатора. Поисковик принимает пользовательские запросы, обрабатывает их при помощи индекса и возвращает результаты поиска .

Когда пользователь вводит запрос в поисковую систему (обычно при помощи ключевых слов), система проверяет свой индекс и выдаёт список наиболее подходящих веб-страниц (отсортированный по какому-либо критерию), обычно с краткой аннотацией, содержащей заголовок документа и иногда части текста. Поисковый индекс строится по специальной методике на основе информации, извлечённой из веб-страниц . С 2007 года поисковик Google позволяет искать с учётом времени, создания искомых документов (вызов меню «Инструменты поиска» и указание временного диапазона). Большинство поисковых систем поддерживает использование в запросах булевых операторов И, ИЛИ, НЕ, что позволяет уточнить или расширить список искомых ключевых слов. При этом система будет искать слова или фразы точно так, как было введено. В некоторых поисковых системах есть возможность приближённого поиска , в этом случае пользователи расширяют область поиска, указывая расстояние до ключевых слов . Есть также концептуальный поиск , при котором используется статистический анализ употребления искомых слов и фраз в текстах веб-страниц. Эти системы позволяют составлять запросы на естественном языке. Примером такой поисковой системы является сайт ask com .

Полезность поисковой системы зависит от релевантности найденных ею страниц. Хоть миллионы веб-страниц и могут включать некое слово или фразу, но одни из них могут быть более релевантны, популярны или авторитетны, чем другие. Большинство поисковых систем использует методы ранжирования, чтобы вывести в начало списка «лучшие» результаты. Поисковые системы решают, какие страницы более релевантны, и в каком порядке должны быть показаны результаты, по-разному . Методы поиска, как и сам Интернет со временем меняются. Так появились два основных типа поисковых систем: системы предопределённых и иерархически упорядоченных ключевых слов и системы, в которых генерируется инвертированный индекс на основе анализа текста.

Большинство поисковых систем являются коммерческими предприятиями, которые получают прибыль за счёт рекламы , в некоторых поисковиках можно купить за отдельную плату первые места в выдаче для заданных ключевых слов. Те поисковые системы, которые не берут денег за порядок выдачи результатов, зарабатывают на контекстной рекламе, при этом рекламные сообщения соответствуют запросу пользователя. Такая реклама выводится на странице со списком результатов поиска, и поисковики зарабатывают при каждом клике пользователя на рекламные сообщения.

Типы поисковых систем

Существует четыре типа поисковых систем: с поисковыми роботами, управляемые человеком, гибридные и мета-системы .

  • системы, использующие поисковых роботов
Состоят из трёх частей: краулер («бот», «робот» или «паук»), индекс и программное обеспечение поисковой системы. Краулер нужен для обхода сети и создания списков веб-страниц. Индекс - большой архив копий веб-страниц. Цель программного обеспечения - оценивать результаты поиска. Благодаря тому, что поисковый робот в этом механизме постоянно исследует сеть, информация в большей степени актуальна. Большинство современных поисковых систем являются системами данного типа.
  • системы, управляемые человеком (каталоги ресурсов)
Эти поисковые системы получают списки веб-страниц. Каталог содержит адрес, заголовок и краткое описание сайта. Каталог ресурсов ищет результаты только из описаний страницы, представленных ему веб-мастерами. Достоинство каталогов в том, что все ресурсы проверяются вручную, следовательно, и качество контента будет лучше по сравнению с результатами, полученными системой первого типа автоматически. Но есть и недостаток - обновление данных каталогов выполняется вручную и может существенно отставать от реального положения дел. Ранжирование страниц не может мгновенно меняться. В качестве примеров таких систем можно привести каталог Yahoo , dmoz и Galaxy.
  • гибридные системы
Такие поисковые системы, как Yahoo , Google , MSN , сочетают в себе функции систем, использующие поисковых роботов, и систем, управляемых человеком.
  • мета-системы
Метапоисковые системы объединяют и ранжируют результаты сразу нескольких поисковиков. Эти поисковые системы были полезны, когда у каждой поисковой системы был уникальный индекс, и поисковые системы были менее «умными». Поскольку сейчас поиск намного улучшился, потребность в них уменьшилась. Примеры: MetaCrawler и MSN Search.

Рынок поисковых систем

Google - самая популярная поисковая система в мире с долей на рынке 68,69 %. Bing занимает вторую позицию, его доля 12,26 % .

Самые популярные поисковые системы в мире :

Поисковая система Доля рынка в июле 2014 Доля рынка в октябре 2014 Доля рынка в сентябре 2015
Google 68,69 % 58,01 % 69,24%
Baidu 17,17 % 29,06 % 6,48%
Bing 6,22 % 8,01 % 12,26%
Yahoo! 6,74 % 4,01 % 9,19%
AOL 0,13 % 0,21 % 1,11%
Excite 0,22 % 0,00 % 0,00 %
Ask 0,13 % 0,10 % 0,24%

Азия

В восточноазиатских странах и в России Google - не самая популярная поисковая система. В Китае, например, более популярна поисковая система Soso ?! .

В Южной Корее поисковым порталом собственной разработки Naver пользуется около 70 % жителей Yahoo! Japan и Yahoo! Taiwan - самые популярные системы для поиска в Японии и Тайване соответственно .

Россия и русскоязычные поисковые системы

Согласно данным LiveInternet в июне 2015 года об охвате русскоязычных поисковых запросов :

  • Всеязычные:
    • Yahoo! (0,1 %) и принадлежащие этой компании поисковые машины: Inktomi , AltaVista , Alltheweb
  • Англоязычные и международные:
    • AskJeeves (механизм Teoma)
  • Русскоязычные - большинство «русскоязычных» поисковых систем индексируют и ищут тексты на многих языках - украинском , белорусском , английском , татарском и других. Отличаются же они от «всеязычных» систем, индексирующих все документы подряд, тем, что, в основном, индексируют ресурсы, расположенные в доменных зонах , где доминирует русский язык, или другими способами ограничивают своих роботов русскоязычными сайтами.

Некоторые из поисковых систем используют внешние алгоритмы поиска.

Количественные данные поисковой системы Google

Число пользователей Интернета и поисковых систем и требований пользователей к этим системам постоянно растёт. Для увеличений скорости поиска нужной информации крупные поисковые системы содержат большое количество серверов. Сервера обычно группируют в серверные центры (дата-центры). У популярных поисковых систем серверные центры разбросаны по всему миру .

В октябре 2012 года Google запустила проект «Где живёт Интернет», где пользователям предоставляется возможность познакомиться с центрами обработки данных этой компании .

О работе дата-центров поисковой системе Google известно следующее :

  • Суммарная мощность всех дата-центров Google, по состоянию на 2011 год, оценивалась в 220 МВт.
  • Когда в 2008 году Google планировала открыть в Орегоне новый комплекс, состоящий из трёх зданий общей площадью 6,5 млн м², в журнале Harper’s Magazine подсчитали, что такой большой комплекс потребляет свыше 100 МВт электроэнергии, что сравнимо с потреблением энергии города с населением 300 000 человек.
  • Ориентировочное число серверов Google в 2012 году - 1 000 000.
  • Расходы Google на дата-центры составили в 2006 году - $1,9 млрд, а в 2007 году - $2,4 млрд.

Размер всемирной паутины, проиндексированной Google на декабрь 2014 года, составляет примерно 4,36 миллиарда страниц .

Поисковые системы, учитывающие религиозные запреты

Глобальное распространение Интернета и увеличение популярности электронных устройств в арабском и мусульманском мире, в частности, в странах Ближнего Востока и Индийского субконтинента , способствовало развитию локальных поисковых систем, учитывающих исламские традиции. Такие поисковые системы содержат специальные фильтры, которые помогают пользователям не попадать на запрещённые сайты, например, сайты с порнографией, и позволяют им пользоваться только теми сайтами, содержимое которых не противоречит исламской вере. Незадолго до мусульманского месяца Рамадан , в июле 2013 года, миру был представлен Halalgoogling - система, выдающая пользователям только халяльные «правильные» ссылки , фильтруя результаты поиска, полученные от других поисковых систем, таких как Google и Bing . Двумя годами ранее, в сентябре 2011 года, был запущен поисковый движок I’mHalal, предназначенный для обслуживания пользователей Ближнего Востока. Однако этот поисковый сервис пришлось вскоре закрыть, по сообщению владельца, из-за отсутствия финансирования .

Отсутствие инвестиций и медленный темп распространения технологий в мусульманском мире препятствовали прогрессу и мешали успеху серьёзного исламского поисковика. Очевиден провал огромных инвестиций в веб-проекты мусульманского образа жизни, одним из которых был Muxlim . Он получил миллионы долларов от инвесторов, таких как Rite Internet Ventures, и теперь - в соответствии с последним сообщением от I’mHalal перед его закрытием - выступает с сомнительной идеей о том, что «следующий Facebook или Google могут появиться только в странах Ближнего Востока , если вы поддержите нашу блестящую молодёжь» . Тем не менее исламские эксперты в области Интернета в течение многих лет занимаются определением того, что соответствует или не соответствует шариату , и классифицируют веб-сайты как «халяль » или «харам ». Все бывшие и настоящие исламские поисковые системы представляют собой просто специальным образом проиндексированный набор данных либо это главные поисковые системы, такие как Google, Yahoo и Bing, с определённой системой фильтрации, использующейся для того, чтобы пользователи не могли получить доступ к харам-сайтам, таким как сайты о наготе, ЛГБТ , азартных играх и каким-либо другим, тематика которых считается антиисламской .

Среди других религиозно-ориентированных поисковых систем распространёнными являются Jewogle - еврейская версия Google и SeekFind.org - христианский сайт, включающий в себя фильтры, оберегающие пользователей от контента, который может подорвать или ослабить их веру .

Персональные результаты и пузыри фильтров

Многие поисковые системы, такие как Google и Bing, используют алгоритмы выборочного угадывания того, какую информацию пользователь хотел бы увидеть, основываясь на его прошлых действиях в системе. В результате, веб-сайты показывают только ту информацию, которая согласуется с прошлыми интересами пользователя. Этот эффект получил название «пузырь фильтров» .

Всё это ведёт к тому, что пользователи получают намного меньше противоречащей своей точке зрения информации и становятся интеллектуально изолированными в своём собственном «информационном пузыре». Таким образом, «эффект пузыря» может иметь негативные последствия для формирования гражданского мнения .

Предвзятость поисковых систем

Несмотря на то, что поисковые системы запрограммированы, чтобы оценивать веб-сайты на основе некоторой комбинации их популярности и релевантности, в реальности экспериментальные исследования указывают на то, что различные политические, экономические и социальные факторы оказывают влияние на поисковую выдачу .

Такая предвзятость может быть прямым результатом экономических и коммерческих процессов: компании, которые рекламируются в поисковой системе, могут стать более популярными в результатах обычного поиска в ней. Удаление результатов поиска, не соответствующих местным законам, является примером влияния политических процессов. Например, Google не будет отображать некоторые неонацистские веб-сайты во Франции и Германии, где отрицание Холокоста незаконно .

Предвзятость может также быть следствием социальных процессов, поскольку алгоритмы поисковых систем часто разрабатываются, чтобы исключить неформатные точки зрения в пользу более «популярных» результатов . Алгоритмы индексации главных поисковых систем отдают приоритет американским сайтам .

Поисковая бомба - один из примеров попытки управления результатами поиска по политическим, социальным или коммерческим причинам.

См. также

  • Qwika
  • Электронная библиотека#Списки библиотек и поисковые системы
  • Панель инструментов веб-разработчика

Примечания

Литература

  • Ашманов И. С. , Иванов А. А. Продвижение сайта в поисковых системах. - М. : Вильямс, 2007. - 304 с. - ISBN 978-5-8459-1155-1 .
  • Байков В.Д. Интернет. Поиск информации. Продвижение сайтов. - СПб. : БХВ-Петербург, 2000. - 288 с. - ISBN 5-8206-0095-9 .
  • Колисниченко Д. Н. Поисковые системы и продвижение сайтов в Интернете. - М. : Диалектика, 2007. - 272 с. - ISBN 978-5-8459-1269-5 .
  • Ландэ Д. В. Поиск знаний в Internet. - М. : Диалектика, 2005. - 272 с. - ISBN 5-8459-0764-0 .
  • Ландэ Д. В., Снарский А. А. , Безсуднов И. В. Интернетика: Навигация в сложных сетях: модели и алгоритмы . - M.: Либроком (Editorial URSS), 2009. - 264 с. - ISBN 978-5-397-00497-8 .
  • Chu H., Rosenthal M.

Ожидаемо Гугл занял первое место в мировом рейтинге. На его долю приходится более 70% поисковых запросов от жителей со всех уголков Земли. Причем треть всего трафика google.com приходится на граждан США. Кроме того, Гугл является самым посещаемым сайтом в мире. Средняя ежедневная продолжительность использования поисковой системы Гугл составляет 9 минут.

Преимуществом поисковика Гугл является отсутствие лишних элементов на странице. Лишь строка поиска и логотип компании. Фишкой являются анимированные картинки и браузерные игры, приуроченные к популярным и локальным праздникам.

2. Bing

Бинг — поисковая система от Microsoft , ведущая свою историю с 2009 года. С этого момента она стала обязательным атрибутом смартфонов на ОС Windows. Bing также отличает минимализм — помимо шапки с перечнем всех продуктов Microsoft, на странице расположена лишь поисковая строка и название системы. Наиболее популярен Бинг в США (31%), Китае (18%) и Германии (6%).

3. Yahoo!

Третье место закрепилось за одним из старейших поисковиков — Яху. Основная масса пользователей также проживает в США (24%). Складывается впечатление, что весь остальной мир сознательно избегает помощи поисковых роботов… Также поисковик популярен в Индии, Индонезии, Тайване и в Великобритании. Помимо строки поиска, на странице Yahoo! предлагается прогноз погоды в вашем регионе, а также мировые тренды в виде ленты новостей.

4. Baidu

Китайский поисковик, который в России снискал дурную славу. Из-за агрессивной политики и отсутствия перевода на русский или английский языки, расширения этой поисковый системы воспринимаются в качестве вирусов. Их очень сложно удалить до конца и избавиться от всплывающих окон с иероглифами. Тем не менее, этот сайт является четвертым в мире по посещаемости. 92% его аудитории составляют граждане Китая.

5. AOL

AOL — американская поисковая система, чье название расшифровывается как America Online. Ее популярность значительно ниже, чем у предыдущих систем. Ее рассвет приходился на 90-е и 00-е годы. Почти 70% аудитории АОЛ — жители Соединенных Штатов.

6. Ask.com

У этой поисковой системы, ведущей свою историю с 1995, довольно необычный интерфейс . Все запросы она воспринимает в качестве вопросов и предлагает варианты ответов в соответствии с поисковой выдачей. Это чем-то напоминает сервис Ответы.Мэйл. Однако в выдачу попадают не ответы любителей, а полноценные статьи. За последний год сайт потерял около 50 позиций в мировом рейтинге самых популярных интернет-ресурсов и на сегодняшний день занимает лишь 104 место.

7. Excite

Этот поисковик ничем не примечателен, и похож на массу других сайтов. Он предлагает пользователям массу сервисов (таких, как Новости, Почта, Погода, Путешествия и т.д.) Интерфейс сайта также вызывает воспоминания о вэбе 90-х гг и, можно предположить, мало изменился с тех пор.

8. DuckDuckGo

Разработчики сразу предупреждают, что данная поисковая система не отслеживает ваши действия в сети. В наши дни это является весомым аргументом при выборе поисковика. Дизайн сайта выполнен в современной манере, использует яркие краски и забавные картинки. В отличие от других поисковых машин, «утиный поисковик» переведен на русский язык. За последний год сайт отыграл около 400 позиций и в марте 2017г. находится на 504 строчке рейтинга популярности Alexa.

9. WolframAlpha

Отличительной чертой этого поиска является многообразие вспомогательных сервисов, рассчитанных на запросы, связанные с теми или иными знаниями. То есть, в выдаче вы не увидите ссылок на посты в соцсетях или статьи желтой прессы. Вам предложат конкретные цифры и проверенные факты в форме единого документа . Этот браузер идеально подходит школьникам и студентам.

10. Yandex

Поисковик, наиболее популярный в России и странах СНГ. Кроме того, около 3% аудитории сайта являются жителями Германии. Сайт примечателен большим количеством сервисов на все случаи жизни (музыка, радио, расписание общественного транспорта, недвижимость, переводчик и пр.) Также ресурс предлагает большой выбор индивидуального оформления сайта, а также настройку виджетов «под себя» . Яндекс занимает 31 место в мире по популярности, потеряв 11 позиций за последний год.