Войти
Каталожный блог
Поведенческие факторы, Яндекс и немного паранойи
#1 У меня есть некоторые мысли относительно Яндекса и поведенческих факторов (ПФ), которыми я бы хотел поделиться.

Часть первая, банальная
Чтобы как-то учитывать поведение посетителя на сайте, об этом поведении нужно хоть что-то знать. Узнать о поведении можно только тремя способами — с помощью программного кода либо в браузере, либо в операционке, либо на сайте. Гугл скорее всего использует все три способа, Яндекс — только первый и третий. Первый — это Яндекс.Бар, под вторым чаще всего подразумевают Яндекс.Метрику. Тут следует отвлечься и заметить, что эти 3 способа ни по отдельности, ни вместе не дают 100% информации о всех посетителях на всех сайтах. Т.е. получается, что либо использовать ПФ в формуле ранжирования можно только в качестве необязательного слагаемого (что налагает структурные ограничения на "формулу"), либо ПФ считаются не для SERP (а, к примеру, для новой рекламной платформы, вычисляющей пол и возраст посетителя). Но в любом случае, ПФ для поисковика полезны и информации для их расчета мало не бывает, а значит нужно собирать эту информацию по всем фронтам.
Код в браузерах: Яндекс выпускает свои сборки Фаефокса, Оперы и Хрома, Яндекс.Бар запихивается в инсталляшки разных Пунто-Свитчеров и т.д.
Код на сайтах: Директ, Метрика ... и всё? Нет, не всё...

Часть вторая, экспериментальная
Классический программный код на сайте, дающий информацию о поведении посетителей — это код счетчика. В рунете самые популярные счетчики это LiveInternet и Рамблер. Пару лет назад LiveInternet обсчитывал около 10% сайтов рунета, а это значительная часть, о счетчике Рамблера вообще молчу. Может ли Яндекс использовать данные чужих счетчиков? Может, простыми или окольными путями, с техническими или моральными трудностями. Другой подход к массовому получению статистики с чужих сайтов — превращение своего кода на чужих сайтах в счетчики.
Проведем эксперимент: сначала посмотрим, как загружается классический счетчик. Установим в Фаефокс расширение для протоколирования HTTP-трафика: LiveHttpHeaders и загрузим любой сайт с кнопкой LiveInternet. В качестве примера возьмем promosite.ru. Теперь смотрим, как загрузилась картинка счетчика:
GET /hit?t14.2;r;s1280*1024*24;uhttp%3A//promosite.ru/;0.785225375380776 HTTP/1.1
Host: counter.yadro.ru
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0.2) Gecko/20100101 Firefox/6.0.2
Accept: image/png,image/*;q=0.8,*/*;q=0.5
Accept-Language: ru-ru,ru;q=0.8,en-us;q=0.5,en;q=0.3
Accept-Encoding: gzip, deflate
Accept-Charset: windows-1251,utf-8;q=0.7,*;q=0.7
Connection: keep-alive
Referer: http://promosite.ru/
Cookie: VID=0pF-O_3hf3Gy

HTTP/1.1 200 OK
Date: Sun, 18 Sep 2011 11:36:15 GMT
Server: 0W/0.8c
Connection: Close
Content-Type: image/gif
Content-Length: 224
Expires: Fri, 17 Sep 2010 20:00:00 GMT
Pragma: no-cache
Cache-Control: no-cache

Обращаем внимание на наличие куки VID и ее значение — 0pF-O_3hf3Gy. Теперь откроем какой-нибудь другой сайт, к примеру lermont.ru и поищем загрузку счетчика:
GET /hit?t44.10;rhttp%3A//lermont.ru/;s1280*1024*24;uhttp%3A//lermont.ru/;0.9890025645672196 HTTP/1.1
Host: counter.yadro.ru
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0.2) Gecko/20100101 Firefox/6.0.2
Accept: image/png,image/*;q=0.8,*/*;q=0.5
Accept-Language: ru-ru,ru;q=0.8,en-us;q=0.5,en;q=0.3
Accept-Encoding: gzip, deflate
Accept-Charset: windows-1251,utf-8;q=0.7,*;q=0.7
Connection: keep-alive
Referer: http://lermont.ru/
Cookie: VID=0pF-O_3hf3Gy

HTTP/1.1 200 OK
Date: Sun, 18 Sep 2011 11:38:44 GMT
Server: 0W/0.8c
Connection: Close
Content-Type: image/gif
Content-Length: 132
Expires: Fri, 17 Sep 2010 20:00:00 GMT
Pragma: no-cache
Cache-Control: no-cache

Видим, что значение куки VID совпадает. В этом нет ничего военного, эти простые действия нам нужны были только для того, чтобы напомнить как работают веб-счетчики и откуда в отчете LiveInternet "переходы без ссылки" для сайта lermont.ru появился сайт promosite.ru.
Если таким же образом посмотреть, какие куки раздает счетчик Рамблера, то можно увидеть целый зоопарк из
ruid, top100vr, dvr, lvr, __utma, __utmz, top100rb.
Ну а теперь самое время вспомнить, какой самый популярный код от Яндекса висит на куче сайтов. Да, это кнопка тИЦ. Давайте посмотрим как она грузится:
GET /cycounter?bash.org.ru HTTP/1.1
Host: www.yandex.ru
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0.2) Gecko/20100101 Firefox/6.0.2
Accept: image/png,image/*;q=0.8,*/*;q=0.5
Accept-Language: ru-ru,ru;q=0.8,en-us;q=0.5,en;q=0.3
Accept-Encoding: gzip, deflate
Accept-Charset: windows-1251,utf-8;q=0.7,*;q=0.7
Connection: keep-alive
Referer: http://bash.org.ru/
Cookie: yandexuid=1287349021962983148; yabs-frequency=/3/Tm79N50yG000/; yp=3832165731.sp.

HTTP/1.1 301 Moved Permanently
Server: nginx
Date: Sun, 18 Sep 2011 12:46:40 GMT
Content-Type: text/html
Content-Length: 178
Connection: close
Location: http://yandex.ru/cycounter?bash.org.ru

Видим как минимум 3 куки: yandexuid, yabs-frequency, yp. Опуская скучные подробности, можно написать, что такие же куки вешаются, с главной Яндекса и SERP, Метрики, Директа и даже поисковой формочки (с картинки стрелочки)
Какой из всего этого можно сделать вывод? Довольно простой: Яндекс имеет возможность отслеживать перемещения посетителей по значительной части рунета (с учетом суммарной распространенности на сайтах своих различных кодов). Можно ли как-то воспользоваться вебмастеру этой ситуацией? Мне кажется, что да. Если у сайта количество просмотров на посетителя выше, чем по отрасли, то совершенно спокойно можно дать знать об этом Яндексу. И если Яндекс действительно использует ПФ для ранжирования, то сайту это качество зачтется. Как лучше засветить для Яндекса свою посещаемость? Я думаю, что проще всего с помощью кнопки тИЦ.

Часть третья, параноидальная
На форуме searchengines.ru стоит Яндекс.Метрика. Что это значит? Это значит, что Яндекс при желании может легко сопоставить активных посетителей этого форума (скорее всего оптимизаторов) и те сайты, которые они чаще всего посещают (при условии, что на них скорее всего есть что-то от Яндекса). Не знаю какой у кого стиль работы, но, к примеру, я со своих сайтов не вылажу и редко захожу к конкурентам. Если читатель такой же параноик как и автор, то пусть выводы делает сам.
liveinternet 2 yandex 13 куки 1 статистика 5 NULL, 2011-09-18 23:04
#2 Благодаря теме на forum.searchengines.ru решил проверить информеры погоды и пробок от Яндекса. Оба информера вешают следующие куки: yandexuid, fuid01, yp, yabs-frequency, aw, t. Видим пересечение по двум кукам с СЕРПОМ, Метрикой и т.д.
NULL, 2011-09-20 19:54