Михайло Волович: «Пошукові системи досить консервативні»

Сучасні пошукові машини враховують при ранжируванні сайтів безліч факторів, деякі з яких самі можуть бути синтетичними (як фактора може використовуватися, наприклад, вектор в n-мірному признаковом просторі). Формула ранжирування формується автоматично з використанням машинного навчання. Крім того, поверх формули ранжирування можуть застосовуватися різні фільтри.

Загалом, точно сказати, як той чи інший параметр впливає на ранжирування, непросто навіть співробітникам пошукових систем. І тим більше важко розібратися в роботі пошуковців зовнішнім спостерігачам, від яких все, що пов’язано з ранжируванням, ретельно ховається, щоб уникнути накруток та інших зловживань.

Компанія «Ашманов і партнери» вивчає фактори ранжирування вже більше п’яти років і авторитетно заявляє, що сьогодні для просування сайту власне сама формула ранжирування і не потрібна. Зібравши для сайтів, які потрапляють в результати пошуку, значення потенційно важливих параметрів, порівнявши їх значення для сайтів, що потрапили і не потрапили в топ по різних запитах, перевіривши, чи є кореляція з позицією, простеживши за зміною цих зв’язків згодом, — можна зрозуміти, що важливо, а що ні, що впливає (або, принаймні, може впливати) на ранжирування, а що ні. А порівнявши значення цих параметрів для свого сайту і його конкурентів в топі, будь тлумачний фахівець може зрозуміти, в який бік рухатися.

Знання про те, які параметри сайту та просуваються сторінок статистично пов’язані з ранжуванням, не гарантує негайного успіху в просуванні — оптимізувати ці параметри і «злетіти ракетою», можливо, не вийде. Проте в Лабораторії пошукової аналітики впевнені, що завжди краще знати, ніж не знати.

На чому ґрунтується ця впевненість, які найближчі SEO-перспективи, і сильно Яндекс відрізняється від Google, розповідає керівник Лабораторії Михайло Волович, незмінний автор всіх аналітичних звітів, присвячених факторів ранжирування.

Михайло Волович: «Пошукові системи досить консервативні»

Михайло Волович, керівник Лабораторії пошукової аналітики компанії «Ашманов і партнери». У 2000 головний редактор порталу «Рамблер». Один з творців сайту «Елементи». Брав участь у розробці пошукового антиспаму і в’єтнамської пошукової системи. Керує проектами AnalyzeThis.ru (автоматичні аналізатори якості пошуку), «Тургенєв» і ОРФО.

Ви вивчаєте фактори ранжирування вже більше п’яти років і з готовністю ділитися отриманими результатами з фахівцями ринку. Чому б не залишити ці дані тільки для внутрішнього використання, для ефективного просування клієнтських сайтів?

Чесно кажучи, ми так спочатку і робили — приблизно перші два роки з тих п’яти з половиною, які ми вивчаємо чинники ранжирування. Спочатку думали, що варто розповідати, що немає, ретельно дозували інформацію…

А потім зрозуміли, що у нас все одно є фора — тому що ми ділимося знаннями, а самі використовуємо засновану на них технологію.

Для клієнтських сайтів ми отримуємо оцінки за всіма важливими параметрами автоматично (якщо не вважати того, що приблизно 100 факторів 600 з гаком засновані на «ручних» оцінках, отриманих від асесорів). Далі ми автоматично порівнюємо сайт клієнта з конкурентами, автоматично виділяємо проблемні параметри, автоматично готуємо дані для SEO-фахівців, які працюють з клієнтом.

До речі, зараз ми впритул підійшли до того, щоб ділитися не тільки теоретичними результатами, але й інструментами, які були розроблені «для себе» і вже добре обкатані на наших клієнтах. Першою ластівкою був «Тургенєв» — з грудня він став платним і приносить хоч і не дуже великий, але стабільний дохід (незважаючи на те, що найважливішу функцію, перевірку стилістики, ми залишили безкоштовною).

Зараз ми готуємо до випуску цілу групу сервісів — почнемо з кластеризації запитів, яка у нас, за багатьма відгуками, виходить дуже непогано. З тих технологій, про які я говорив вище, ми думаємо скоро викласти сервіси по автоматичному аудиту текстів, засновані на текстових параметрах. Таких параметрів у нас багато — мало не половина від усіх, які ми досліджуємо.

Ви досі обмежувалися публікацією одного основного звіту з результатами дослідження факторів ранжирування в Яндексі і Google за певний рік. У 2019 році було опубліковано п’ять великих аналітичних звітів по різних галузях, в чому необхідність такого поділу?

Кожен з цих п’яти аналітичних звітів готувався до однієї з галузевих конференцій eTarget. Бажання подивитися на особливості ранжирування по галузях було і раніше, але часу завжди не вистачає, а тут вже діватися було нікуди.

І так — не знаю, як читачам, але нам самим було дуже цікаво. У кожної з розглянутих галузей — своя помітна специфіка. Ми до того часу вже досить добре уявляли собі ранжування електронної комерції, дивилися на вибірки за запитами різних наших клієнтів і метавыборки (це коли всі дані за кілька місяців збираються разом). А ось, наприклад, до `медицині або нерухомості було дуже цікаво придивитися уважніше. В медицині ми майже вперше зайнялися ранжуванням за інформаційними запитами, яке мене давно цікавить, і яке влаштовано не зовсім так, як за комерційним.

У всіх випадках ми зібрали набори запитів, результати за якими тепер будемо вивчати регулярно. Ось з нерухомості вже вийшло повторне дослідження — в нашій частині зовсім короткий, оскільки за півроку там мало що змінилося. Зараз працюємо над електронною комерцією — 2020.

Для більшості SEO-фахівців зміни у формулах ранжирування ПС — це небезпека, небезпека втрати досягнутих позицій, трафіку, грошового та тимчасового ресурсів. Чи поділяєте ви цю точку зору, або у вас свій погляд на ускладнення пошукових алгоритмів?

Так, звичайно, чим вище забрався, тим болючіше падати. Але зате і позитивний зворотний зв’язок працює — чим більше трафік, тим більше посилань і згадок в соцмережах, тим товщі ІКС, більше можливостей оптимізувати сайт, купувати рекламу… В кінцевому рахунку — більше переходів з пошукових систем, вище трафік, і так по колу.

В останні роки ця тенденція — багаті (трафіком) стають багатшими, а бідні біднішими — стала дуже помітною, результати пошуку в багатьох галузях сильно монополізовані. А от невеликі сайти завжди в зоні ризику.

В цілому, за нашими даними, алгоритми ранжирування змінюються досить повільно, пошукові системи консервативні. Як і наші рекомендації — я просто не бачу, яким з них було б небезпечно слідувати.

Значна частина цих рекомендацій, на жаль, — за все хороше проти всього поганого (як, втім, і рекомендації співробітників самих пошуковиків). Важливо мати величезний асортимент, багато сторінок в індексі (особливо релевантних), великий трафік з хорошою структурою, відмінні користувацькі метрики… Не сказати, щоб цим рекомендаціям було просто слідувати, але пошкодити вони точно не можуть.

Комерційні параметри кшталт горезвісного телефону 8-800 — деякі з них можуть втратити силу, але навряд чи вони стануть шкідливими. Наприклад, пошукові машини, якщо вірити нашим даними, люблять, коли бізнес дає відвідувачам сайту можливість замовити зворотній дзвінок — мабуть, на випадок, якщо не додзвонився або телефонувати з іншого міста дорого.

І якщо вже наявність телефону 8-800 стали активно імітувати, то повісити на сайт замовлення зворотного дзвінка зовсім нічого не варто. Тому ми давно передбачали, що цей параметр повинен втратити значення. Це пророцтво для Яндекса потроху починає збуватися — але все-таки важко собі уявити, що Яндекс почне карати за таку можливість. Так в чому тоді небезпека?

З ссылочными і текстовими трохи складніше, оскільки пошуковики однією рукою їх враховують, а інший загрожують фільтрами. Ну так у нас і на цей випадок є параметри — ризик «Мінусинська» ризик «Баден-Бадена».

В чому особливість методології, яку використовує Лабораторія пошукової аналітики?

Звичайно, ми далеко не перші, хто вважає кореляції між значеннями параметрів і позицією в результатах пошуку. Зрозуміло, що наявність кореляції ще не означає, що є пряма (або хоча б непряме) вплив параметра на ранжирування, але це як мінімум хороша відправна точка для подальшого аналізу.

При цьому ми багато зробили по-своєму. Зазвичай обліку десяток чи кілька десятків параметрів для тисяч (іноді навіть сотень тисяч) запитів — а у нас параметрів на порядок більше (близько 650), зате запитів по нашому досвіду достатньо набагато менше. Наша основна вибірка, дані з якої ми відстежуємо щомісяця протягом ось уже п’яти років, складається всього з 160 запитів — але ми регулярно перевіряємо свої висновки на значно великих вибірках, і вони таку перевірку витримують.

Ми застосовуємо більше статистичних показників — завжди верифікуємо виявлені кореляції статистично значимими відмінностями між групами результатів (наприклад, перша десятка проти двох наступних). Для оцінки параметрів ми використовуємо «ручну роботу» асесорів — методика, скопійована у пошукових систем.

Але якщо вибирати головна відмінність, то, напевно, воно полягає в тому, що ми оцінюємо зв’язок параметрів сайтів (сторінок) не тільки з позицією всередині топа, але з самим попаданням в топ. І іноді це виявляється важливіше.

Ми майже завжди працюємо із запитами, конкуренція за яким висока, а тому є великий запас релевантних — і, більше того, спеціально оптимізованих під цей запит — сторінок. Ми можемо виходити з того, що якщо ми візьмемо, наприклад, топ-30 Яндекса, Google і Mail.ru, то переважна більшість з них виявляться досить релевантними. В принципі, кожен з пошуковиків міг би включити в топ будь-який з них — але якісь він вибрав, а якісь ні. Значить, ми можемо порівняти топ-30 Яндекса (або Google) з «фоном», тими результатами, які туди не потрапили, але є в топі хоча б однієї з двох інших пошукових систем.

Виявляється, що, наприклад, багато параметри в Яндексі набагато сильніше впливають на потрапляння в топ-30, ніж на позицію всередині нього, — тоді як в Google кореляції з позицією сильніше, хоча середні значення параметрів нижче. А за іншими параметрами, навпаки, в Яндексі є сильна кореляція з позицією, а Google — сильна зв’язок з попаданням в топ.

Як ви ставитеся до дослідження чинників ранжирування за допомогою опитування SEO-фахівців?

З великою повагою і цікавістю, хоча іноді (по відношенню до деяких висновків) і з сумнівом. Практичний досвід і засноване на ньому «чуття» дуже важливі. Правда, робота над сайтом завжди комплексна, і не так просто зрозуміти, що саме принесло успіх (або невдачі). Здорово, коли є підстави для впевненості, що допомогло щось конкретне, — до такого досвіду ми завжди уважно прислухаємося.

І звичайно, ми завжди намагаємося знайти нові параметри, які можна було б формалізувати та включити в свій аналіз. Чужий досвід, в тому числі і підсумований в таких опитуваннях, нам дуже допомагає.

Можна виділити певні тенденції у змінах формул ранжирування обох пошуковиків? Рухаються вони в одному напрямку або орієнтованість на різні ринки відіграє провідну роль?

Росії пощастило з пошукачами. У нас хороший пошук Google (краще, ніж той же Google, наприклад, у В’єтнамі) — не тільки тому, що він сам такий крутий, але й тому, що Яндекс не гірше, і з ним доводиться конкурувати. І навіть пошук Mail.ru, в який вкладено значно менше сил і засобів, теж цілком собі нічого. Якість пошуку можна виміряти, що ми і ми робимо вже цілу вічність — з 2007 року! — у проекті AnalyzeThis.ru.

І всі ці роки Яндекс і Google йшли буквально нога в ногу. Їх формули ранжирування дуже різні (це добре видно на наших даних), але проблеми, які їм доводилося вирішувати, були схожими. В результаті різними шляхами Яндекс і Google часто приходять до майже відрізнятись один від одного результатами пошуку. Нижче — дуже суб’єктивний огляд тенденцій, які ми спостерігали за час роботи Лабораторії пошукової аналітики.

Коли наша Лабораторія ще тільки починалася, Яндекс і Google вели важку позиційну боротьбу з самим грубим пошуковим спамом начебто дорвеїв, і далеко не відразу, але вийшли з неї переможцями. Приблизно тоді ж пошуковики навчилися добре справлятися з навігаційними запитами.

Потім — теж дуже давно, вже років десять тому гостро постало завдання знайти альтернативу посилань як універсального мірила «ваги» сайту. Саме тоді Яндекс і Google істотно розширили коло факторів ранжирування, зокрема, стали враховувати комерційні параметри.

Одночасно пошуковикам доводилося боротися з «посилальним спамом» — і тут, треба сказати, Яндекс виступив і радикальніше, і успішніше. Можливо, тому, що авгієві стайні наших посилальних бірж для Google були лише одним з епізодів на важливому, але все-таки другорядному ринку, а для Яндекса — суворою реальністю, яку він сам почасти й породив.

Google і Яндекс паралельно навчалися розуміти, чого хоче користувач, і дружно запевняли вебмайстрів, що просто потрібно робити сайти для людей, а не для пошукових алгоритмів, і все вийде. Це звучало як знущання — але самі розробники в це вірили, тому що у них розквітало машинне навчання, і шлях від асессорских оцінок (замінюють користувальницькі) до оптимального ранжування здавався прямим і навіть не дуже тернистим.

Розуміти, чого хоче користувач, і формувати задовольняє його видачу дійсно виходило непогано — але не по всім запитам і навіть не у всіх галузях. Найкраще виходило там, де релевантних і при цьому якісних результатів багато, — причому швидше з комерційними запитами, ніж з інформаційними.

Багато чинники ранжирування віддавали (природно, при інших рівних) перевагу великим, відвідуваним — а значить, надійним і улюбленим користувачами — сайтів. Це породжувало замкнуте коло: великі сайти зростали ще більше, дрібні не мали для цього ресурсів. У результаті в останні роки дуже помітна тенденція до монополізації видачі, коли за дуже широкому колу запитів перші позиції займають одні й ті ж гіганти.

Там, де очевидних результатів мало або зовсім немає, успіхи пошукачів набагато скромніше. То Яндекс похвалиться тим, що навчився знаходити фільми по нечітких описів, то Google — що тепер він вміє враховувати прийменники. (Причому в обох випадках це не просто пересічні досягнення, а чи не головне зміст нових алгоритмів ранжирування.) Тим не менш, конкуруючих один з одним пошуковим машинам знову доводиться вирішувати схожі завдання — покращувати пошук по нетривіальним інформаційним запитам. І до речі, тут цілком можна чекати прориву. Хто його зробить першим, ми не знаємо — але навряд чи другий сильно відстане.

Не сильно краще ситуація і там, де формально релевантних результатів багато, але якість їх здебільшого низька. Наприклад, за медичними інформаційними запитами. Тут і застосовувані рішення, і результати пошуку в Google і Яндекса поки начебто дуже різні (див. докладніше у нашому торішньому медичному аналітичному звіті), але проблема перед ними стоїть одна і та ж і, швидше за все, в найближчі роки вона так чи інакше буде вирішена обома пошуковими системами.

Що порадите SEO-фахівцям і вебмайстрам, на що орієнтуватися в 2020 році?

Ранжування за комерційним запитам більш або менш сформувалося, тут навряд чи можна очікувати серйозних змін. Головна тенденція тут добре відома — заміщення органічної видачі погано відмінною від неї рекламної, а також власними сервісами пошуковиків. На жаль, це, швидше всього, буде продовжуватися — зрозуміло, виключно в інтересах користувачів». А деякі місця в пошуковій видачі будуть як і раніше зайняті найбільшими агрегаторами і маркетплейсами.

В цих умовах паралельно з пошуковою оптимізацією буде поступово розвиватися оптимізація «площадочная» — боротьба за кращі місця в спецсервисах пошуковиків (в маркетах, на картах тощо), на великих агрегаторах і т. п. Ми зараз в цю сторону теж уважно дивимося.

Є боязкі ознаки того, що розробники пошукових систем почали помічати, як далеко зайшла монополізація видачі, і коректувати цей перекіс. Якщо це дійсно так, є надія, що трохи піднесуться спеціалізовані сайти і бізнеси.

Іншу схожу проблему — велику інерцію результатів пошуку за частотним запитам, де накопичена зворотний зв’язок від користувачів заважає пробитися новим сайтам, — пошуковики вирішують вже давно («багаторукі бандити», персоналізація видачі). Але тут цілком можна очікувати нових експериментів і посилення турбулентності.

Я з нетерпінням чекаю, коли ж Яндекс, нарешті, наважиться застосувати до медичним та іншим «статтями» методи боротьби з «текстовим спамом», успішно перевірені на інтернет-магазинах. Деякі заслужені інформаційні сайти на кшталт сумнозвісного fb.ru вже «посипалися», але на місце кожного вибулого готова встати сотня не менш оптимізованих і релевантних продуктів інформаційного сайтобудування. Мені здається, що зараз саме час вкладатися в дійсно гарні інформаційні сайти, їхній час скоро прийде. Інша справа, що це дорого і важко.

Серйозних змін можна очікувати у видачі й по іншим типам інформаційних запитів. Але зовсім не факт, що прорив дозріє до кінця 2020 — і в Google, і в Яндекса багато часу попереду.

По материалам: www.searchengines.ru