Анализ выдачи поисковой системы
Google в различных нишах.
Исследуется поведение выдачи в зависимости
от тематики и частотности запросов.

Содержание

1. Введение
2. Эволюция алгоритмов Google
3. Понятия и определения
4. Постановка задачи и исходные данные
5. Программы и сервисы, используемые для обработки данных
6. Краевые эффекты
7. Исходная информация, полученная в результате эксперимента
8. Статистика сайтов в каждой группе
8.1 Распределение дорвеев в каждой нише
8.2 Количество дорвеев в каждой тематике
9. Определение основных игроков
9.1 Анализ основных игроков среди белых сайтов
10. Выводы
11. Заключение

1. Введение

Поисковый трафик традиционно считается наиболее ценным с момента появления поисковых машин в сети Интернет. Тысячи вебмастеров ежедневно трудятся над оптимизацией сайтов, с целью получения нужных позиций в результатах поиска. Не секрет, что трудозатраты и стоимость продвижения сайта очень сильно зависят от тематики и частотности запросов. Более того, для различных ниш присущи различные механизмы продвижения. Естественно, что серьезным двигателем появления новых технологий продвижения является конкуренция между игроками рынка.

С появлением новых механизмов конвертации трафика грань между коммерческими и некоммерческими запросами стала размываться. Однако и сейчас можно утверждать, что существуют области запросов, где идет напряженная борьба между участниками рынка, а есть тематики, где поисковый трафик менее привлекателен.

Поисковые машины, тоже, в свою очередь не стоят на месте. Постоянно совершенствуются механизмы ранжирования, наращиваются серверные мощности, вводится модерация поисковой выдачи и так далее. Это приводит к тому, что технологии, которые давали гарантированный результат вчера, сегодня могут быть уже не актуальными.

Однако количество пользователей сети Интернет неуклонно растет. Растет и объем информации, представленной на сайтах. Сложно сказать, когда объем вычислительных мощностей поисковиков будет достаточно велик, что бы обеспечить релевантную выдачу по всем тематикам и запросам, интересующим пользователей. На данный момент, изучая результаты поиска можно увидеть как серьезные, контентные сайты, так и поисковый спам (дорвеи). В различных тематиках соотношение между этими группами будет различно. Мы не будем касаться этических и экономических аспектов поискового спама. Это тема для отдельной дискуссии.

Целью данного доклада будет анализ выдачи ведущей поисковой системы Google в зависимости от тематики и частотности запросов.

2. Эволюция алгоритмов Google

Поисковая система Google довольно быстро стала популярной благодаря качеству поиска. Во многом благодаря революционной технологии Page Rank’а. За короткий промежуток времени Google обогнал по посещаемости всех конкурентов, став мощнейшим источником трафика для сайтов. Естественно, что появилось много вебмастеров, специализирующихся на оптимизации сайтов под Google.

В частности, широкое распространение получили “черные” методы оптимизации. Особенно индустрия поискового спама стала популярной после появления множества партнерских программ и Pay-Per-Click систем.

Для любой поисковой системы проблема “спама” является одной из самых насущных. Для борьбы со спамом Google стал принимать энергичные меры. Так, многие помнят нашумевшие технологии Florida, Hilltop, Trust Rank и др. В результате введения новых алгоритмов количество недобросовестных ресурсов резко сокращалось. Затем, технологии продвижения совершенствовалась, и в выдаче опять появлялись “дорвеи”.

Справедливости ради, надо сказать, что с введением всех этих алгоритмов качество поиска Google неизменно улучшалось. А продвижение “недобросовестных” ресурсов все более ресурсоемко и экономически затратно. Наиболее быстро усилия по преодолению новых фильтров и алгоритмов реализуются в коммерческих нишах. Соответственно, со стороны Google этим направлениям и тематикам уделяется пристальное внимание.

С некоторого времени становится очевидно, что в различных тематиках поисковые результаты Google ведут себя по-разному.

 

4. Постановка задачи и исходные данные

Для исследования поведения Google в различных тематиках нами были взяты 6 ниш.

  • Gambling (Казино, азартные игры)
  • Pills (таблетки, стимуляторы и тд)
  • Dating (знакомства, чаты)
  • Adult (запросы эротического содержания)
  • Cars (автомобильная тематика)
  • Gifts (подарки, сувениры)

Для каждой ниши была сформирована база одно-, двух- и трех сложных запросов (источник – wordtracker.com)
Общее количество запросов в каждой базе – 30.000
Общая база для анализа 30.000 х 6 = 180.000 запросов.
Ежедневно сохраняются и анализируются первые 20 результатов поисковой выдачи по каждому запросу.
Дата начала эксперимента: 12 июля
Дата окончания: 19 августа

Цель эксперимента:

  • выявление основных игроков в каждой тематике
  • выявление “дорвеев”
  • выявление типичных механизмов продвижения
  • сбор и анализ статистических данных

5. Программы и сервисы, используемые для обработки данных

Анализ результатов выдачи производился с помощью сервисов: Seodigger.com, Serparchive.org и Seoquake.com.

Seodigger.com – сервис, который позволяет исследовать по каким ключевым словам и фразам сайты находятся в поисковой системе Google.
Принцип работы: Сервис сохраняет первые 20 результатов выдачи Google по 44 миллионам популярных запросов. После сбора данных строятся соответствия:

  • URL -> запросы, по которым он присутствует в выдаче Google
  • Сайт (включая все внутренние страницы) -> запросы, по которым страницы сайта присутствуют в выдаче Google

Serparchive.org – сервис, который ежедневно сохраняет первые 100 результатов выдачи по указанным запросам в различных поисковых системах. Позволяет следить за историей позиций сайтов в поисковых системах.

Seoquake.com – расширение для браузера FireFox. Предназначен для быстрого просмотра параметров сайтов в результатах поиска ведущих поисковых систем , а также на любых других страницах (документах).

6. Краевые эффекты

Для того, что бы наш анализ был до конца корректным, нам необходимо учесть “краевые” эффекты.

  • “белый” сайт появляется в поисковой выдаче в конце периода наблюдения. В этом случае срок его присутствия в выдаче может быть меньше 2-х недель. Учесть такие сайты в рамках данного эксперимента невозможно. Однако, доля таких сайтов по нашим наблюдениям не велика, и не окажет существенного влияния на общую картину.
  • Поскольку сервис Seodigger.com работает с первыми 20 результатами выдачи, статистику могут портить “белые” сайты, которые находятся на последних местах двадцатки результатов. Если во время исследования позиция сайта колеблется, он может быть причислен к разряду поискового спама, несмотря на то, что является “белым” ресурсом. Для исключения этого краевого эффекта, были построены две базы. Первая база – основная, состоит из сайтов находящихся на 1-15 позициях поисковой выдачи за весь период рассмотрения. Вторая база – дополнительная. Состоит из сайтов, находящихся за весь период наблюдения на 15-20 позициях. Поисковый спам, обнаруженный по нашей методике в первой базе, будет проверятся на принадлежность к добросовестным сайтом во второй базе. Если мы увидим, что сайт во второй базе находится достаточно долго, он будет исключен из списка поискового спама. Далее в докладе используются данные с учетом этого краевого эффекта.

7. Исходная информация, полученная в результате эксперимента

Длительность эксперимента составила 36 дней. За этот период для каждой ключевой фразы с помощью сервиса Serparchive.org ежедневно сохранялись результаты поисковой выдачи Google. Сервис Seodigger.com вычислял, по каким запросам страница находится в результатах поиска.

Все нижеприведенные материалы и анализы будет не что иное, как статистическая обработка полученных данных.

 

8. Статистика сайтов в каждой группе

Используя данные ранее определения “белых” сайтов и поискового спама, мы будем оценивать статистику присутствия этих сайтов для каждой из выбранных групп ключевых фраз.

Для этого необходимо вычислить количество адресов страниц, которые находились в результатах поиска 1 день, 2 дня, 3 и т.д. вплоть до 36 дней. Для более наглядного отображения информации разобьем весь период эксперимента на 6 равных временных отрезков. Для нас наибольший интерес будут представлять первый и последний отрезок. В первом, согласно нашим определениям, будут сосредоточены сайты, относящиеся к поисковому спаму, в последнем – “белые” сайты.

* – цифры рядом с группой означают одно, двух и трех сложные запросы соответственно.
** – цифра показывает, общее количество уникальных страниц, которое находилось в выдаче Google указанное количество дней

Группа 1 – 6 7 – 12 13 – 18 19 – 24 25 – 30 31 – 36
Adults 1 838** 241 159 127 152 402
Adults 2 503250 58910 29515 22410 24176 84909
Adults 3 1947145 156474 13963 14883 25320 116502
Cars 1 5616 1810 939 651 699 2896
Cars 2 281164 70326 37187 27751 29255 154664
Cars 3 647145 145474 73969 53883 57320 286902
Casino 1 9955 3311 1834 1293 1450 5067
Casino 2 196810 52148 28561 22326 23272 117990
Casino 3 538990 132745 74220 55579 57562 295333
Dating 1 1666 463 264 150 173 616
Dating 2 88139 21638 11826 8802 9368 43310
Dating 3 721208 128039 64727 46641 47790 200827
Gifts 1 573 203 113 71 87 426
Gifts 2 49843 12672 6821 5499 5875 35720
Gifts 3 635098 133249 69386 52307 54656 265006
Pills 1 1056 185 90 100 80 505
Pills 2 234692 23225 10795 8049 7414 35713
Pills 3 303830 29824 13618 10018 9660 43894
  <<<< Дорвеи Белые сайты >>>>

 

Таблица 1. Статистика сайтов по длительности нахождения в выдаче Google

 

В таблице 1 представлено распределение сайтов по длительности вхождения в выдачу за время эксперимента. Однако мы пока не можем сравнивать эти данные, поскольку группы односложных, двух и трех сложных запросов содержат разное количество кейфраз, и, соответственно, количество сайтов в каждой группе за время эксперимента будет разное.

Для того можно было корректно сравнивать между собой, необходимо пронормировать полученные данные по количеству кейвордов в каждой группе. Будем нормировать все результаты на 1000 кейфраз.

Группа 1 – 6 7 – 12 13 – 18 19 – 24 25 – 30 31 – 36
Adults 1 20950* 6025 3975 3175 3800 10050
Adults 2 58456 6843 3428 2603 2808 9863
Adults 3 85298 6520 582 537 847 4438
Pills 1 27077 4744 2308 2564 2051 12949
Pills 2 67421 6672 3101 2312 2130 10259
Pills 3 69288 6801 3106 2285 2203 10010
Dating 1 27767 7717 4400 2500 2883 10267
Dating 2 24161 5931 3242 2413 2568 11872
Dating 3 38864 6900 3488 2513 2575 10822
Cars 1 21683 6988 3625 2514 2699 11181
Cars 2 22567 5645 2985 2227 2348 12414
Cars 3 26964 6061 3082 2245 2388 11954
Gifts 1 16853 5971 3324 2088 2559 12529
Gifts 2 18731 4762 2563 2067 2208 13424
Gifts 3 28525 5985 3116 2349 2455 11902
Casino 1 20071 6675 3698 2607 2923 10216
Casino 2 20600 5458 2989 2337 2436 12350
Casino 3 22458 5531 3093 2316 2398 12306
  <<<< Дорвеи Белые сайты >>>>

 

Таблица 2. Нормированная статистика стайтов по длительности нахождения в результатх поиска. (Получена путем нормировки таблицы 1.)

– Таблица построена в порядке убывания дорвеев в нишах.

Таким образом, каждая цифра в таблице означает условное количество сайтов нормированное на 1000 кейфраз. Скажем, из таблицы, мы можем сказать, что для группы Adult 1 количество дорвеев на 1000 фраз составило 20950 за время эксперимента (левый столбец).

Теперь попытаемся разобраться в полученных данных.

 

8.1 Распределение дорвеев в различных нишах

После того, как была проведена нормировка, мы можем корректно сравнивать количество поискового спама и белых сайтов в различных нишах.

Рассмотрим условное распределение дорвеев на 1000 кейфраз среди одно-, двух- и трех- сложных запросов в различных нишах.

Количество запросов Adult Pills Dating Cars Gifts Casino
1 20950 27077 27767 21683 16853 20071
2 58456 67421 24161 22567 18731 20600
3 85298 69288 38864 26964 28525 22458

 

Таблица 3. Количество дорвеев в различных нишах среди одно-, двух-, и трехсложных запросов

* – данные в таблице получены с учетом нормировки.

Из таблицы 3 видно, что существуют ниши, где количество дорвеев среди односложных односложных запросов гораздо меньше чем среди двух-, и трех- сложных запросов (ниши Adult и Pills), а есть ниши, где количество дорвеев примерно одинаковое (Gifts, Cars).

Механизмов у этого эффекта может быть несколько:

  1. Ниши Adult и Pills традиционно являются направлениями, где поисковый спам активно процветает. Несмотря на все усилия поисковых машин, доля дорвеев в этих нишах высока. Очевидно, что вероятность обнаружения поискового спама тем выше, чем ниже частотность запроса (частотность запроса показывает, сколько пользователей делают этот запрос поисковой машине в заданный период). Поэтому мы тут и видим такую картину.
  2. Ниша Casino тоже является коммерчески привлекательной и конкурентной. Очевидно, что вебмастеров, желающих получить поисковый трафик в этом направлении достаточно много. Однако, как мы видим, картина распределения дорвеев тут иная, чем в нишах Pills и Adult. Возможно, это как раз и связано с высокой конкуренцией. Борьба между конкурирующими сайтами идет фактически за каждый запрос. Владельцы сайтов в этих нишах активно следят за деятельностью конкурентов и препятствуют распространению поискового спама.
  3. Возможно, ротация сайтов, находящихся в поисковой выдаче для указанных групп, идет с различной периодичностью.

Для наглядности нам будет полезно сравнить распределение дорвеев в подгруппах на графике.

количество дорвеев в группах

Рис.1. Количество дорвеев среди одно-, двух- и трех- сложных запросов

Следует отметить, что различные ниши отличаются между собой не только абсолютными значениями количества дорвеев (высота столбцов) но и наклоном огибающих. Ели мы мысленно проведем огибающею прямую (как это сделано для Adult и Pills на рисунке) для всех ниш, то увидим, что наклон у этих прямых различен. Косвенно, по этому наклону можно судить о конкуренции в нише.

Если мы захотим по тому же методу построить распределение “белых” сайтов, то увидим обратную картину. Очевидно, “белых” сайтов будет больше среди групп, где количество дорвеев меньше.

 

8.2 Количество дорвеев в каждой тематике

Не представляет труда сосчитать общее количество дорвеев в каждой нише. Сравним между собой все тематики.

Тематика Общее количество дорвеев в тематике на 1000 запросов
Adult 164704
Pills 163786
Dating 90792
Cars 71214
Gifts 64109
Casino 63129

 

Таблица 4. Общее количество дорвеев в каждой тематике.

* – Общее количество дорвеев в тематике получено суммированием количества дорвеев для одно-, двух- и трех- сложных подгрупп.

По этой таблице косвенно можно судить о конкурентной борьбе в этих нишах среди сайтов поискового спама, а так же о “легкости” попадания сайтов в результаты поиска. Вероятно, получить поисковый трафик будет легче там, где выдача поисковых машин более “подвижна”. Однако гарантированно утверждать это нельзя, поскольку ситуация зависит от многих факторов как то: количество игроков в данной нише, объем кейфраз, относящихся к данной тематике и так далее.

9. Определение основных игроков

Имея данные, накопленные за период эксперимента, мы можем выделить основных игроков для каждой ниши среди “белых” сайтов, а так же выявить типичные схемы поискового спама, присущие каждой отдельной нише.

Основными игроками среди “белых” сайтов будем считать те, которые расположены в последнем временном промежутке таблицы 1 и находятся по большому количеству поисковых запросов данной тематики.

Для удобства, исключим из рассмотрения различные справочные сайты, на подобие wikipedia.org и answers.com которые широко представлены во всех группах, которые мы рассматриваем.

Ниша Основные игроки среди “белых” сайтов
Adult pichunter.com, youngerbabes.com, 3pic.com, penisbot.com
Cars edmunds.com, kbb.com, utotrader.com, nadaguides.com
Casino harrahs.com, casino.com, gonegambling.com, alottery.com
Dating adultfriendfinder.com, swinglifestyle.com, swingtowns.com, match.com
Gifts patagoniagifts.com, gifts.com, antiquingonline.com, bernardine.com
Pills drugs.com, druginfonet.com, crazymeds.org, coreynahman.com

 

Таблица 5. Основные игроки в каждой нише среди белых сайтов

Определять основных игроков среди поискового спама мы будем по несколько другой методике:

  1. Этот тип сайтов находится в первом временном промежутке (1-6 дней, см. таблицу 1)
  2. Рассматриваются отдельные страницы (а не домены, как в “белых” сайтах). Рассмотрение доменов не имеет смысла, потому как большая часть дорвеев, как мы увидим далее, находится на отдельных страницах привилегированных сайтов.
  3. Лидерами являются те страницы, которые появились по большему количеству поисковых запросов

Ниша Лидеры среди дорвеев Количество запросов
Adult http://hgfkjhg.blog.drecom.jp/archive/1
http://php.scripts.psu.edu/juw107/seminars/php-may2006/uploadedfiles/hardcore.html
http://newmedia.cdws.ucf.edu/wiki/img/amateur-girls.html
http://jabsom.hawaii.edu/images/amateur-teens.html
423*
285
261
251
Cars http://theframegw.iifree.net/index-auto-parts.html
http://aivt.1sweethost.com/index-auto-parts.html
http://www.2000twe.happyhost.org/index-auto-parts.html
http://2000bns.free-site-host.com/index-auto-parts.html
22
22
20
18
Casino http://www.mathematics.pitt.edu/?2:12
http://www.umc.pitt.edu/tour/tour1-12.html
http://alison73.wordpress.com
http://baccaratnew.blogspot.com
130
57
38
19
Dating http://php.scripts.psu.edu/juw107/seminars/php-may2006/uploadedfiles/amateur.html
http://reddot.uark.edu/UserFiles/File/amateur.html
http://mcobit.business.nd.edu/kb/images/Research/amateur.html
http://eclassrooms.coe.uh.edu/attachments/amateur.html
601
513
507
451
Pills http://pills.hornbeckboats.com/zoloft
http://smallschools.ischool.washington.edu:8000/d_www/buy-soma.html
http://web.cfa.arizona.edu:8082/d_www/buy-valium-online.html
http://ccgb.umn.edu:8002/d_www/buy-valium-online.html
133
48
43
41

 

Таблица 6. Основные игроки в каждой нише среди сайтов поискового спама

* – количество запросов данной тематики, по которым страница была обнаружена в результатах поисковой выдачи в течении эксперимента

Если присмотреться внимательно, мы увидим схожесть технологий спама в различных нишах. Видно, что наибольший поисковый трафик концентрируется на дорвеях, расположенных в зонах .edu и .gov.

Так же надо заметить, что в конкурентных нишах, таких как Adult и Dating существенная часть трафика аккумулируется на дорвеях. В нишах Cars и Gifts доля трафика, приходящегося на поисковый спам существенно меньше (в таблице ниша Gifts отсутствует, поскольку сколько-нибудь значимых дорвеев там обнаружить не удалось). Косвенно, эти данные подтверждает таблица 1. Если посчитать отношение между белыми сайтами и поисковым спамом (столбец 6 и 2 соответственно) мы увидим подтверждение этих слов.

 

9.1 Анализ основных игроков среди белых сайтов

Как мы обнаружили в предыдущем разделе, дорвейные технологии на данный момент сосредоточены вокруг правительственных и образовательных сайтов. Основная задача для реализации этой схемы заключается в том, что бы разместить контентосодержащие страницы на .edu и .gov ресурсах. Далее на дорвей проставляются ссылки, и страница быстро попадает в результаты поиска. Надо сказать, что пропадает она из результатов тоже достаточно быстро.

Гораздо интересней посмотреть, чем выделяются основные игроки среди “белых” сайтов в конкурентных нишах. Для решения этой задачи нам понадобится программа Seoquake.com.

Будем сравнивать основных игроков по нескольким параметрам:

  • Google PR
  • Google Index
  • Google links
  • присутствие в каталоге Dmoz
  • Возраст домена

Url Google pagerank Google index Google links Dmoz Webarchive age
Adult          
http://pichunter.com/ 5 36600 947 No Apr 10 2001
http://youngerbabes.com/ 3 101 1 No Nov 28 1999
http://3pic.com/ 5 15 291 No Mar 03 2000
http://penisbot.com/ 5 27400 1290 No Aug 2000
Casino          
http://harrahs.com/ 6 6020 638 20 Feb 05 1997
http://casino.com/ 5 2190 67 36 May 30 1997
http://gonegambling.com/ 1 22700 0 1 Nov 11 1998
http://alottery.com/ 3 86 23 1 Apr 11 2000
Dating          
http://adultfriendfinder.com/ 7 131000 2050 No Aug 1998
http://swinglifestyle.com/ 4 338000 122 No Sep 24 2001
http://swingtowns.com/ 0 82400 0 No Feb 20 2001
http://match.com/ 7 1170000 11300 152 Jan 12 1998
Pills          
http://drugs.com/ 6 336000 6830 13 Dec 23 1996
http://druginfonet.com/ 6 1990 282 12 Dec 22 1996
http://crazymeds.org/ 4 13600 135 2 Nov 18 2003
http://coreynahman.com/ 6 219 2320 9 May 11 2000

 

Таблица 7. Анализ основных игроков среди белых сайтов

Учитывая то, что показания поисковой системы Google могут меняться день о то дня и, порой, отличаться на порядки, относиться к этой таблице надо с осторожностью. Однако некоторые зависимости, тем не менее, видны с первого взгляда.

  1. В основном лидеры – это многостраничные сайты-порталы. Естественно, было бы странно, если бы большое количество поискового трафика аккумулировали сайты из нескольких страниц.
  2. В списке лидеров нет новичков. Самый молодой сайт основан в конце 2003 года. Большинство же, и вовсе старше 2001 года создания.
  3. Наличие в каталоге Dmoz (и, скорее всего в каталоге Google) уже не является необходимым условием для попадания в лидеры тематики.

Остальные выводы требуют существенных допущений, и не совсем очевидны, поэтому предоставим сделать их уважаемым читателям.

10. Выводы

Статистическая обработка данных выдачи поисковой машины Google позволяет нам получить распределение “белых” сайтов и поискового спама для каждой ниши. Кроме этого, в каждой тематике можно выделить основных игроков как в “белых” сайтах так и в дорвеях.

Исследуя поисковый спам, можно видеть, что в конкурентных нишах, таких как Adult, Dating – существенная часть трафика приходится на дорвеи (см. табл 6). В менее конкурентных нишах доля этого трафика меньше.

Однако, исследуя направление Casino, мы столкнулись с несколько иной статистикой распределения “белых” сайтов и дорвеев. На наш взгляд основная причина отличия статистической картины – высокая конкуренция ниши. Скорее всего, технологии спама, которые активно используются в других конкурентных нишах, в направлении Casino будут работать менее эффективно.

Наш анализ строился для большого количества запросов в каждой тематике. Понятно, что совсем не обязательно исследовать тематики столь разной направленности и работать с большими объемами данных. Если разбивать каждую тематику на подгруппы можно получать более детальную информацию по конкретным нишам поисковых запросов.

11. Заключение

Все данные для этого доклада были получены и обработаны с помощью проектов Seodigger.com, Serparchive.org и Seoquake.com. При желании, каждый желающий может проделать подобные эксперименты с помощью этих сервисов.

Приведенные методы дают очень широкие возможности для исследований. Вот некоторые из них:

  • Выявление технологий, которые позволяют активно привлекать поисковый трафик
  • Сравнение количества и качества поисковых запросов различных сайтов
  • Анализ ниши с точки зрения конкурентности и легкости попадания сайта в результаты поиска
  • Поиск актуальных технологий продвижения в других тематиках
  • Выявление ниш, в которых преобладают “белые” сайты или, наоборот, технологии поискового спама
  • Поиск “привилегированных” сайтов
  • и др.

By Ruslan Novikov

Интернет-предприниматель. Фулстек разработчик. Маркетолог. Наставник.