Как ориентироваться в «паутине»

Поисковыми системами пользуются все. Но то, как именно они работают, для большинства — тайна, покрытая мраком. А Google или Яндекс ведь не случайно выводят одни сайты на первых строчках, а другие — на пятой странице результатов поиска. Как и зачем в Карелии изучают принципы работы поисковиков и соцсетей, рассказывает доктор технических наук Андрей Печников.

Карельский ученый Андрей Печников — прикладной математик: он решает реальные проблемы с помощью математических моделей. Причем проблемы эти могут лежать в самых разных областях, вплоть до ремонта асфальтовых дорог.

— Еду я из Финляндии на машине вместе с женой, а на дороге местами положены заплаты, — приводит пример ученый. — И вот вопрос: почему в некоторых местах одна большая заплата, а в других вместо большой — две-три маленькие рядом друг с другом? Эта задача решается с помощью математической модели: видимо, набор заплат подбирают таким образом, чтобы отремонтировать все ямы с минимальными затратами. Если рядом две ямы одинаковой глубины, выгоднее убрать перемычку и залить их асфальтом вместе. А если одна мелкая, а другая глубокая, то их лучше асфальтировать порознь.

Андрей Печников

Последние 12 лет Андрей Анатольевич занимается прикладными задачами применительно к Вебу (он же — World Wide Web, «всемирная паутина»). Его не стоит путать с понятием «Интернет», которое все же гораздо шире.

Интернет — это глобальная телекоммуникационная сеть, в которую входят физическая составляющая (провода и устройства, передающие и получающие сигнал) и виртуальная (программы, которые позволяют передавать информацию).

Веб — это система доступа к связанным между собой документам, лежащим на разных компьютерах. Ее около 30 лет назад придумал англичанин по имени Тимоти Бернерс-Ли. В то время он работал в ЦЕРНе (Европейском центре ядерных исследований), как и сотни других ученых. Все вместе они генерировали огромное количество информации и тратили много времени, чтобы обмениваться ею друг с другом.

Тимоти Бернерс-Ли. Фото: ruspekh.ru

Тимоти Бернерс-Ли. Фото: ruspekh.ru

— Электронной почты в современном понимании в то время не было (и флешек не было), — продолжает Андрей Анатольевич, — но компьютеры уже были объединены в сети. Другое дело, что доступ к данным на чужих компьютерах был достаточно непростым, в современной терминологии надо было «ходить по чужим папкам», не всегда зная, как они организованы. Или в прямом смысле ходить друг к другу с дискетами и записывать нужные данные, что часто было гораздо проще. И тогда Ли сказал: это всё ерунда, мы придумаем единую адресацию документов на всех компьютерах.

И придумал. Так появился URL — единообразный определитель местонахождения ресурса. А потом ученый написал программу, которая, зная URL, позволяла открыть ресурс с любого устройства. Придумав специальный язык, на котором можно было писать сопроводиловки к файлам, а сейчас делать веб-странички, Бернерс-Ли вместе с коллегой Робертом Кайо создал первый браузер. Изобретение предназначалось ученым, но со временем им стали пользоваться абсолютно все, у кого есть компьютер.

Андрей Печников исследует Веб с точки зрения вебометрики. Этот раздел информатики изучает количественные аспекты создания и использования информационных ресурсов. Сюда относится и анализ цитируемости сайтов, и изучение социальных сетей, и сбор данных о работе поисковых систем и посетителях веб-сайтов.

Андрей Печников. Фото: ИА "Республика" / Сергей Юдин

Андрей Печников. Фото: ИА «Республика» / Сергей Юдин

— Например, все мы ищем информацию через поисковые системы — Google, Яндекс и так далее, — говорит Андрей Печников. — Они определенным способом ранжируют ответы и выводят на первые места те сайты, которые считают наиболее соответствующими запросу. И довольно часто угадывают наши пожелания. Чтобы настроить поисковик на такую работу, нужны данные вебометрики, это один из примеров ее применения. Но только ни Яндекс, ни Google об этом не рассказывают.

Ориентация на пользователя

Cистему ранжирования веб-страниц придумали основатели Google Ларри Пейдж и Сергей Брин. Говоря упрощенно, созданный ими алгоритм на первые строчки результатов поиска выводил те сайты, на которые больше всего ссылок с других ресурсов. Хотя на самом деле, говорит Андрей Печников, идея была посложнее.

— Значимость сайта определяется даже не числом ссылок на него, а тем, сколько раз ты на него попадешь, если будешь ходить по веб-пространству бесконечное количество времени. С этой точки зрения самые лучшие сайты — это некоторые узловые точки, через которые постоянно ходят пользователи, чтобы попасть по гиперссылкам из одного сегмента веб-сети в другой.

И этот признак — только вершина айсберга. У Google, например, существует около 120 критериев (а может быть, и все 220), по которым ранжируются различные ресурсы. Этот список держат в секрете, чтобы разработчики не подбивали сайты под требования, таким образом, добиваясь более высоких позиций.

Фото: pixabay.com

Фото: pixabay.com

Еще один любопытный момент: поисковые системы очень многое знают о пользователях благодаря поисковым запросам, которые они делают. Самое простое подтверждение — существование контекстной рекламы: стоит один раз «загуглить» адрес ювелирного магазина, и рекламные окошки на разных сайтах еще месяц будут предлагать всевозможные украшения.

Эти же данные могут учитываться при ранжировании сайтов в результатах нового поискового запроса, как и, например, географическое положение пользователя и многие другие факторы.

— Был у меня когда-то один аспирант, — рассказывает Андрей Анатольевич. — И как-то раз в рамках решения одной задачки он выкачал очень большую базу данных Яндекса, которая, кстати, никак не была защищена. Мы порылись в этой информации и обнаружили там много интересного. Я не имею права говорить более подробно, но могу сказать, что, поработав плотно с этими данными, мы бы поняли, как устроена значительная часть поисковой системы.

Андрей Печников. Фото: ИА "Республика" / Сергей Юдин

Андрей Печников. Фото: ИА «Республика» / Сергей Юдин

Некоторые результаты этого исследования аспирант Андрея Печникова оформил в доклад, поехал с ним на международную конференцию в Москву… и пропал. А потом выяснилось, что перспективному молодому ученому сразу после доклада предложили в компании Яндекс годичный контракт.

Реклама для друзей друзей

Еще одно исследование Андрея Печникова касалось сайтов институтов Российской академии наук. Ученого интересовало, по каким принципам они ставят ссылки друг на друга.

— Сайтов было штук 900, гиперссылок между ними — около 10 тысяч, — говорит Андрей Печников. — Сначала мы сняли «чешую» — сайты, на которые кто-то ссылается, но которые сами не ссылаются на коллег из Академии наук (и наоборот, они ссылаются, а на них — нет). Потом «выпотрошили» материал — убрали сайты, которые только парочками ссылаются друг на друга.

В итоге осталось около 300 связанных сайтов, ссылки между которыми проанализировали с помощью математических алгоритмов. Оказалось, что все они делятся на определенные группы, участники которых ссылаются друг на друга чаще, чем на других коллег.

— В одну группу, например, попали институты, связанные с археологией, — говорит Андрей Анатольевич. — Получается, что они объединились потому, что работают в одной сфере, и это логично и ожидаемо. Но так объединились не все: в одну группу вошли, например, новосибирские институты в области математики, физики, химии, энергетики. Возможно, они дружат не из-за географического принципа, а потому, что выполняют совместные проекты. И меня как ученого это радует: наука сейчас развивается на стыке разных направлений, это перспективно.

В каждом из овалов - группы сайтов, члены которых ссылаются друг на друга чаще всего. Вверху слева - группа историко-филологических институтов, внизу слева - смешанная группа. Схема Андрея Печникова

В каждом из овалов — группы сайтов, члены которых ссылаются друг на друга чаще всего. Вверху слева — группа историко-филологических институтов, внизу слева — смешанная группа. Схема Андрея Печникова

Результаты подобных исследований в какой-то степени позволяют отслеживать и прогнозировать, куда движется российская наука. Найти этой информации коммерческое применение сложно, и это сознательный выбор Андрея Печникова: большинство его проектов затрагивает сферы науки и образования.

А вот если использовать вебометрику в других областях, можно добиться, например, увеличения количества продаж.

— В прошлом году мы с одним бакалавром из Санкт-Петербургского университета занимались задачкой: как получить информацию о друзьях пользователя «ВКонтакте». Мы написали пару программ, которые находят в соцсети всех ваших друзей и всех друзей ваших друзей. Некоторые из них дружат между собой, и в итоге мы получаем от семи до 30 тысяч человек, связанных друг с другом.

Все эти люди объединяются в крупные группы по городам. Эту информацию можно использовать, например, в рекламных целях: рекламу условной автомастерской в Петрозаводске получат только жители Петрозаводска, и такая рассылка будет более эффективной, чем случайная.

— Понимание структуры сообщества чрезвычайно важно, чтобы в его пространстве выполнять какие-то целенаправленные действия, — поясняет Андрей Печников. — На этом материале можно было бы узнать еще много интересного, но буквально недавно «ВКонтакте» ограничил доступ к информации о друзьях пользователей.

Андрей Печников. Фото: ИА "Республика" / Сергей Юдин

Андрей Печников. Фото: ИА «Республика» / Сергей Юдин

Это, видимо, неспроста: хозяева крупных интернет-компаний заинтересованы в том, чтобы держать в секрете механизмы действия своих ресурсов.