Нейронная сеть, что будет с seo?
В конце 2020 года Яндекс улучшил ранжирование текста, запустив принципиально новый алгоритм YATI. Это аббревиатура от фразы «Yet Another Transformer with Improvements», которая переводится как «ещё один улучшенный трансформер». YATI – технология на нейронных сетях, которая оценивает смысл контента на веб-странице и сопоставляет его со значением поискового запроса пользователя.
Разработчики и менеджеры из Яндекса отмечают, что алгоритм YATI является наиболее крупным изменением в поисковой системе за минувшие 10 лет – с момента внедрения MatrixNet. Но необходимо понимать, что нейронная сеть не удаляет сотни ранее созданных правил ранжирования. Она работает вместе с ними. Впрочем, важность её теперь так высока, что если выкинуть из общей формулы остальные факторы, то качество поисковой выдачи понизится лишь на 5%.
С чего всё начиналось
Перед тем как перейти к алгоритму Яндекса YATI, полезно вспомнить, с чего всё начиналось, как эволюционировали нейронные сети раньше.
Эпоха до нейронных сетей
До 2016 и тем более 2020 года алгоритмы не читали статьи на странице. Программа оценивала контент исключительно математически. Яндекс считал количество ключевых слов, учитывал размер всего контента и длину наибольшей подстроки в тексте. Также оценивались некоторые поведенческие факторы: история браузера пользователя, клики на странице.
На основе большого числа формул создаётся модель, позволяющая достаточно точно подбирать статьи к нужному запросу. Из-за чего формируется впечатление «осмысления» текста поисковым роботом. Но на деле такой механизм не оценивал смысл текста, и уж тем более речь не шла об анализе качества контента. Вообще до 2016 года 95% всех слов в тексте никак не учитывалось Яндексом.
Например, при поисковом запросе «игра TES» могли рассматриваться некоторые синонимы: «The Elder Scrolls», «Древние Свитки» или просто «Свитки». Но при этом остальная часть текста (около 95-99%) не сохранялась совсем. В дальнейшем эту технологию дорабатывали и появлялись новые алгоритмы: Магадан, Находка, Арзамас (своеобразная игра в «города»).
Впервые нейронные сети Яндекс стал применять в своём Переводчике. А в 2009 году был анонсирован новый алгоритм Снежинск, который создавался на базе машинного обучения MatrixNet. Но на деле ничего революционного не произошло. Для сравнения более поздний алгоритм Минусинск наделал гораздо больше шума и оказал большее влияние на ранжирование.
По-настоящему серьёзным шагом стало внедрение Яндексом двух алгоритмов на нейронных сетях: Палех и Королёв.
Палех
Его внедрили в 2016 году. Палех имел совершенно другую архитектуру и был инновационным с точки зрения применения нейронных сетей в ранжировании. Перед обучением в справочник робота было загружено миллион терминов из словаря, такое же число биграмм слов и триграмм знаков. Все слова разбивались на группы по три символа, что позволяло распознавать близость таких понятий как «маленький» и «мельчайший». Кроме того, алгоритм YATI стал распознавать опечатки.
Главной особенностью стало векторное распознавание смысла фразы. Каждое понятие имело определённую смысловую нагрузку (часто в нескольких темах) или вектор. В процессе анализа фразы вектора всех слова складывались, в результате побеждало какое-то одно главное направление, которое указывало на определённую тему. Аналогично осмысливался поисковый запрос.
Пример сложения векторов различных слов:
Преимуществом данного способа является возможность установить соответствие между запросом и содержанием страницы. Даже если в тексте отсутствуют необходимые ключевые слова. Однако у данного алгоритма есть один недостаток – для онлайн использования он был ресурсоёмким. Поэтому применялся лишь для заголовков и title, а также исключительно на лучших 150 страницах в поисковой выдаче. Все остальные сайты ранжировались по более старой модели.
Королёв
В 2017 Яндекс внедрил новый алгоритм Королёв. Главным нововведением стала обработка страниц «офлайн», благодаря чему удалось решить проблему ресурсоёмкости. Правда теперь, чтобы страница отобразилась в поисковой выдаче, нужно было подождать неделю. Суть механики состояла в том, что текст анализировался заранее, а на серверах Яндекса сохранялся его вектор.
- Благодаря этому удалось добиться нескольких плюсов:
алгоритм стал применяться для большего числа страниц – до 200 тысяч файлов; - впервые оценивается не только заголовок и title, но и сам текст (пусть и не полностью).
Кроме того, стали сравниваться новые запросы с ранее известными. Если вектора были близки друг к другу, то сразу же можно было выбрать наиболее подходящий ответ.
Наконец, Королёв стал анализировать URL страниц и переходы по сайту.
Основные недостатки
- Этот алгоритм в большинстве случаев работал хорошо, но у него было несколько существенных минусов:
никак не анализировался порядок слов (или учитывался минимально); - на деле словарь был довольно маленький;
- неизвестные слова разбивались на наиболее частые сочетания букв, чтобы хоть как-то попробовать оценить смысл. Это помогало, но плохо;
- весь текст описывает единственный вектор небольшого размера, при этом все страницы в интернете отличаются по объёму. Кроме того, отдельные части документа нередко обладают разными семантическими связями с введённым поисковым запросом.
Серьёзно повышает релевантность контента анализ поведения пользователя на странице (взаимодействие с её элементами, переходы по ссылкам, окончание поиска в сети). Однако и здесь имеется проблема. Ведь какое-то действие человека или его отношение к тексту в целом ничего не говорит о его качестве.
YATI
В 2020 году в алгоритме YATI появилось много нововведений. Так что он имеет совершенно другую архитектуру.
Во-первых, обучение системы происходит в 2 этапа. На первой стадии YATI учат предсказывать поведение пользователей и клики. Делается это с помощью сервиса «Толоки», где люди за небольшую плату указывают релевантность страницы. Здесь происходит первичный отсев страниц.
Затем на второй стадии происходит дообучение с помощью экспертного мнения реальных людей, которые разбираются в указанной теме. Второй тип трафика крайне дорогой, поэтому его объём намного меньше, и он привлекается в конце. Данная модель намного эффективнее, так как учитывается реальное качество текста.
Во-вторых, тексты дробятся на куски, и для каждой части создаётся свой отдельный вектор. В итоге удаётся сохранить положение смысловых конструкций в статье. При этом учитывается больший объём текста, нежели это было в Королёве. В частности, контент до 10 предложений YATI будет усваивать целиком.
При этом надо учитывать, что новый алгоритм YATI не заменил предыдущие способы оценки и ранжирования. Они применяются для создания итоговой модели.
В выдаче можно обнаружить страницы, которые соответствуют смыслу запроса и только 1-2 результата, содержащие точное вхождение ключа.
Другими словами, каждый фактор обладает определённым весом, а при анализе страницы происходит их «борьба». Учитывается поведение пользователей, технические показатели, ссылочная масса.
Гораздо сильнее нейронные сети оказывают влияние, если точного вхождения запроса не имеется. Такое бывает, когда пользователь вводит вопросы, вроде «фильм, где главным героям нельзя разговаривать».
Что же за алгоритм YATI?
Алгоритм Яндекса YATI имеет множество особенностей, которых не было в ранее применяемых нейронных сетях. Рассмотрим их все подробнее.
Что такое нейронные сети?
Для начала надо разобраться с тем, что такое вообще нейронные сети.
Нейронная сеть состоит из нескольких слоёв:
1. Первый слой воспринимает признаки в математической обработке. Например, цвет – в формате rgb, смысл текста – в формате плотности определённых слов.
2. На втором слое находится сумматор, который складывает все значения, а также имеет определённый порог возбуждения. Именно он принимает решение.
3. Третий слой – это собственно программа, ответственная за выполнение решения.
Разумеется, это упрощённая схема. В нейронной сети слои могут многократно дублироваться, а также возможны другие слои с необычными функциями.
Обучение состоит в том, то нейросети скармливают специальную выборку и смотрят на результат на входном слое. После чего сравнивают правильный ответ и получившийся. В зависимости от результата изменяют характеристики отдельных элементов слоёв.
Путь Яндекса к YATI
Чтобы понять, что принципиально нового в алгоритме Яндекса YATI, надо разобраться с тем, что такое трансформер. Так называют крайне большие и сложные нейронные сети. Благодаря этому система справляется с многочисленными задачами в области анализа естественного языка (перевод, написание текста, его обработка).
Для сравнения ранее созданная нейросеть прошла обучение на ускорителе Tesla v100 всего за час. Для обучения трансформера при таких же ресурсах потребовалось бы более 10 лет. Поэтому для тренировки современной нейросети YATI применяется свыше 100 ускорителей. Для чего потребовалось сделать отдельный кластер, который бы занимался исключительно вычислениями для обучения.
Обычная методика для тренировки трансформеров заключается в том, чтобы показывать ему группу текстов, где скрыто некоторое количество слов. А цель трансформера – угадать замаскированные слова. Для нового алгоритма Яндекса YATI в 2020 схема была усложнена – ему показывали поисковые запросы пользователей, после чего программа должна была угадать, какая из страниц больше всего им понравилась. После положительного результата наступал второй этап, где система училась угадывать предпочтения уже не рядовых пользователей, а экспертов-ассесоров.
Дата запуска
Анонс нового алгоритма Яндекса YATI состоялся в ноябре, но в этом месяце не было никаких существенных переломов в индексации. Обычно при запуске новой модели происходит излом характеристик. Например, резко меняются оптимальные показатели длины URL-адреса, частоты вхождений ключей.
Однако в указанный период никаких скачков не происходит. Можно предположить, что запуск нового алгоритма Яндекса YATI был размазан во времени. Сначала значимость инновационного фактора была искуственно понижена, а затем повышалась до нормальной.
BERT и YATI
В многочисленных статьях, посвященных алгоритму ранжирования Яндекса YATI, отмечается, что данная модель является прямым конкурентом BERT от Google. Вторая нейронная сеть аналогично анализирует пользовательские запросы и смысл. Ниже в таблице продемонстрирована эффективность работы различных алгоритмов на нейросетях при ранжировании всяческих документов. При этом 100% NDCG означает, что система поставила страницы том же порядке, в котором их размещали эксперты-ассесоры.
Таблица сравнения эффективности для моделей YATI, BERT и Палех по рейтингу NDCG:
Алгоритм | NDCG, % |
Палех | 86,2 |
Feed-forward сеть на переформулировке | 88,1 |
BERT-Base | 91,6 |
Ru-BERT | 91,6 |
YATI, дистилляция в feed-forward сеть | 91,4 |
YATI, аналог BERT-Base | 94,1 |
YATI, продакшн-модель | 95,4 |
Из результата видно, что алгоритм YATI работает эффективнее. Кроме того, при анализе поискового запроса он ещё оценивает контент на странице, учится угадывать клики. Но с глобальной точки зрения западная программа лучше. Просто отечественный Яндекс эффективнее справляется с русским языком в силу культурного преимущества. При этом надо понимать, что BERT способен решать гораздо больше задач, среди которых анализ «смысла» запроса является лишь одной из возможностей.
Что ждет SEO с новым алгоритмом?
Как ни странно, особых изменений в ближайшее время не предвидится, хотя усиление роли качества текста и поведения пользователей будет серьёзно возрастать в поисковом продвижении сайтов.
Исследование
После внедрения нейронных сетей можно было бы ожидать, что «смысл» навсегда победит оптимизацию и оставит SEO-специалистов без работы. Но есть сомнение. Ведь алгоритм Яндекса YATI обучался на микрочастотных запросах, страниц по которым и так в интернете не хватает. А как обстоят дела в обычных ВЧ, СЧ и НЧ запросах?
Студия «Пиксель Тулс» сделала своё маленькое исследование по основным факторам ранжирования. Пора ознакомиться с результатами.
Точное вхождение
Исследование по этому фактору выполнено 11 декабря 2020 года. А предыдущее было в 2019 году в этих же числах. В обоих случаях выборка примерно одинаковая – около 48 тысяч у НЧ запросов и 4000 у СЧ и ВЧ.
Результат шокировал всех – ценность точного вхождения у низкочастотных запросов не только не упала, но даже выросла. Причём значительно. Особенно для топ 30 поисковой выдачи.
У СЧ и ВЧ-запросов результат был несколько иной. В топ 10 ощущается серьёзное влияние нового фактора – ценность точного вхождения снизилась. Но зато оно сохранилось у сайтов, которые не входят в первую десятку.
Наличие всех слов в тексте
Для этого исследования было взято около 48 тысяч НЧ запросов и 9,5 тысяч СЧ и ВЧ. По результатам исследования стало ясно, что документы из топ 10 чаще включают все слова из запроса. Среднее значение – примерно 0,8. То есть обычно 80% всех ключей из поискового запроса содержится в тексте страницы.
Слова в Title
Для этого исследования были подобраны всё те же 48 тысяч НЧ запросов и 9,5 тысяч СЧ и ВЧ. Здесь можно отметить рост среднего значения. То есть в топ стали чаще попадать документы, содержащие в title все слова из поискового запроса. Но зато уменьшилась зависимость позиции сайта от числа ключей и точности вхождения. То есть слова в title теперь нужны для попадания в выдачу, но не влияют на позицию в ней.
Выводы по исследованию
Означает ли это, что алгоритм YATI теперь сильнее оценивает сайт по ключам? Скорее всего, нет. Исследование недостаточно полное для таких далеко идущих выводов. Но результаты однозначно указывают на то, что старые факторы ранжирования не стоит сбрасывать со счетов.
Надо понимать, что страницы с точными запросами и другими характеристиками могли попадать в топ не из-за старых показателей, а по причине более высокого качества текста, который прекрасно соседствует с ключами в title и точными вхождениями (одно другому не мешает).
Как изменится СЕО?
При оптимизации сайта необходимо учитывать, как новый алгоритм YATI ранжирует веб-страницы. В частности надо обращать внимание на следующие факторы:
- алгоритм YATI теперь оценивает не только ключи, но и смысл текста;
- значение имеет форматирование текста – наличие подзаголовков, блоков;
- спам ключами наказывается ещё строже;
- учитывается большое разнообразие слов – синонимы, тематические слова;
- оценивается грамматика;
- серьёзно улучшает ранжирование наличие фото, видео, интерактивных элементов на странице;
- учитывается трафик не только из поисковой системы, но и с других источников;
- по-прежнему важен параметр ИКС – индекс качества. На него влияет численность аудитории, активность пользователей;
- большую роль играет размер портала, количество страниц и объём контента;
- Яндекс учитывает структуру сайта. Чем удобнее пользователю находить нужный контент, тем лучше. Предпочтительнее древовидная структура, с небольшой глубиной вложенности страниц;
- как и раньше, уникальность контента – основной параметр. Идеальный показатель – 90-100%. Проверять желательно на сервисе text.ru;
- хоть ссылочный профиль и не играет уже такой большой роли, но он по-прежнему необходим. Здесь важно гнаться за качеством, а не количеством. То есть стараться размещать ссылки на популярных ресурсах;
- возросла ценность поведенческих факторов – это длительность пребывания пользователей на сайте, переходы по внутренним страницам и другие параметры. Для улучшения характеристик необходимо работать над качеством контента и удобством сайта.
Что же делать с сайтом, чтобы он лучше ранжировался?
Так как значимость нейронной сети в ранжировании сайтов повысилась, то немного поменялась оптимизация. Поэтому обратите внимание на следующие рекомендации:
1. Используйте разные вхождения. Полезно немного увеличить количество ключевых слов. Но чтобы избежать переспама, необходимо использовать разные вхождения:
- точные и прямые – эти ключи выглядят так же, как в поисковом запросе;
- разбавленное вхождение – если запрос состоит из нескольких понятий, то между ними вставляются различные слова и предлоги;
- морфологические вхождения – это изменение запроса на слово другого рода с сохранением корня;
- синонимичные – использование синонимов.
2. Форматируйте текст, расставляйте акценты. В первую очередь, надо использовать заголовки, разбивая ими текст на фрагменты в 1000-2000 символов. Далее необходимо предоставлять часть контента в виде списков, таблиц, а также фотографий. Кроме того, желательно выделять отдельные фрагменты жирным шрифтом или курсивом, а также цветным блоками или цитатами.
3. Старайтесь сделать так, чтобы контент на странице точно соответствовал запросу. Если обнаружен не целевой трафик, то надо проанализировать рекламную кампанию, семантическое ядро сайта.
4. ;Расширяйте семантическое ядро с помощью микро- и низкочастотных запросов. Не стоит их недооценивать, ведь на деле основную массу трафика сайты получают с их помощью. К тому же поисковые системы положительно оценивают порталы, работающие по НЧ, а значит, чаще выдают их страницы по средним и высокочастотным запросам.
5. Анализируйте сайты конкурентов. Оценивайте не только их семантические ядра, но также структуру портала, способ форматирования контента, ссылочный аппарат, интерактивные элементы и другие особенности.
6. Не скидывайте со счетов классику поисковой оптимизации. Это ещё рано делать. Используйте точные вхождения в тексте и заголовке, а также используйте слова в Title. При этом старайтесь сделать так, чтобы прямое или точное вхождение ключа не било по грамматике и смыслу текста.
7. Работаете над контентом портала. Чем качественнее вы его проработаете и подадите, тем выше вероятность, что у вас появится большая аудитория. Сделайте сайт более интересным. Улучшите фото ваших товаров или услуг. Постарайтесь минимизировать использование стоковых фото, видео.
Вывод
Расширяйте семантическое ядро, используйте не только ключи из 3-4 слов, но и крупные запросы из 6-7 и более терминов. Многие ошибочно считают, что от длинных фраз мало толку. Но практика показывает, что они нередко приводят больше людей, а трафик оказывается лучше.
Работайте над качеством страниц. Подавайте информацию не в виде текста-портянки, а разделите его на логические блоки, оформляйте картинками, списками, таблицами. В каждый блок вставляйте ключевые фразы – это поможет поисковику лучше оценить материал.