Если кратко сказать, это построение семантического графа.
Семантический граф – это созвездие слов, которые окружают одно главное, то есть показывают силу связи каждого слова с основным ключом.
Граф применяется в поисковых системах в обработке естественного языка и понимания смысла. Еще его называют векторной семантикой, по сути это одно и тоже.
Содержание
В самых примитивных версиях они анализировали документ на вхождение слов. Условно, если слово «Орел», то документ релевантен этому запросу, а на слова «птица, крылья, летать» они вообще не обращали внимание.
Далее придумали такую штуку, как TF-IDF, где слова, которые часто встречаются в интернете, да и вообще в русском языке, имели минимальный вес, а вот редкие слова имели больший вес. Например, слово «Птица» из нашего примера имела бы небольшой вес, а вот «ТУ-134» куда больший. Я думаю, вы уже поняли, что так анализировать документ не совсем верно.
Далее TF-IDF модифицировали в более лучшую формулу BM-25.
Это первый релиз нейросетей Яндекса, который начал понимать более или менее смысл текста. Он основывался на синонимах и других связанных словах. Можно сказать, что Яндекс начал понимать редкие запросы и отвечать на них.
Далее машину начали обучать и давали на вход документы, и человек должен был поставить оценку, релевантны они или нет.
Например, подавали слово «Птица» и затем слово «Орел». Нужно было составить оценку, скажем по 10 бальной шкале, насколько слова близки другу к другу по смыслу. Я бы поставил оценку 9, а слову «летать» 8 и так далее.
Это пример построения связи в трехмерной плоскости. Но вот только Яндекс использует как минимум 300 таких векторов. Порой есть слова, связь которых не очевидна.
Например, слово «Ту -134» кажется с птицей вообще не связано, разве что умеет летать. Не торопитесь так думать.
То есть, если хотите написать статью про этот самолет, нужно использовать слова «Птица, летать» и еще как минимум 298 других слов.
Это самый последний релиз нейросетей и формулы обработки естественного языка.
В чем же отличие нового алгоритма? Ну например, Яндекс теперь может учитывать порядок слов, еще лучше понимать смысл слов и может выделять самые значимые фрагменты в тексте.
По сути своей он также хранит графы, которые могут переобучаться. Но только основа для обучения кратно изменилась.
Первым слоем в Яндексе являются документы, которые получили много кликов по, например, запросу «Самолет Ту-134». Он хранит большую статистику по всем документам. Можно с определенной долей уверенности сказать, что чем больше документ получил кликов, тем он более релевантен. Ну при условии, что пользователи не вышли сразу на другой документ. Кстати, важно, что Яндекс еще и смотрит на определенный граф из запросов, которые поступают на документ. То есть документ может не содержать слово «Ту-134», но, если на него заходят по запросам «самолет синяя птица», то можно его ранжировать по запросу «Ту-134» при условии, что таких кликов было не мало.
Вторым слоем являются оценки асессоров, которым показывают документ и запрос и просят поставить оценку, релевантен или нет. Это дешёвые оценки, так как их выполняют пользователи сервиса Толока. Также толокеры обучают нейросеть по связям. Например, есть пара слов «самолёт и птица», вот они ставят числовую близость этим парам слов, например, оценку 3 по 10 бальной шкале.
Ну и вот третий слой обучения. Это оценки экспертов, которые, прочитав статью про самолет «Ту-134», могут с уверенностью дать оценку, насколько статья экспертная. Подтвердить, что этот самолет также называют «синяя птица», внести, например, какие-то корректировки и тем самым обучить граф или нейронку, добавив туда новые слова и словосочетания. Только вот этот эксперт – это человек, который очень неплохо разбирается в самолетах и знает, например, когда был спроектирован «Ту-134», какой у него двигатель, кто главный инженер и так далее.
Тем самым мы имеем на выходе идеально обученную нейронку или граф. Так как сами клики не являются идеальным мерилом, хороший документ или нет.
Наверное теперь все поняли, что чтобы создать идеально релевантный документ по мнению Яндекса, вы должны быть экспертом в данной нише, например, в самолетах.
На помощь вам придет наш сервис «Герцоги» и наш клуб, где мы рассказываем о том, как применять эти знания и выгрузки.
Давайте посмотрим на примере, что мы можем получить, вбив в наш сервис запрос «Самолет Ту-134»
Это одни из связей, которые мы может проверить. Ну и конечно, если вбить в Яндекс фразу «ТУ-134 и птица», мы получим ответ, что самолет называют «синяя птица»
Или вот, например, какие еще слова мы может получить
И вот ответ что это в самолетах.
Исследуя дальше вы можете узнать, когда самолет спроектировали, его устройство, тип топливной системы, какие катастрофы были с его участием и так далее.
Я предлагаю вам стать экспертом в любой области и по сути пройти все слои обучения в нейронке Яндекса. Но конечно на это требуется время, но можно нанять помощника, который сможет извлечь все данные и дать ТЗ на формирование документа.
Скажу сразу, что LSI никогда и не были частью нейронки Яндекса. Были LSA, но это другая тема.
Давайте подумаем, откуда берутся LSI? Разные инструменты парсят ТОП по запросам, но кто формирует топ? Такие же SEO специалисты, которые не являются экспертами. Вы можете вписать любые слова в документ и, например, включить накрутку поведенческих факторов, и эти инструменты покажут вам, что данные слова важны, но только Яндекс так не думает.
Топ очень сильно подвержен манипуляциям и поэтому основываться на нем не верно от слова совсем. Яндекс обучали эксперты и люди. Просто из за отсутствия экспертных документов он показывает те, на которые больше всего кликали.
Конечно нужно понимать, что лишь одной текстовой оптимизацией в высоконкурентный топ не зайти. Но она поможет сделать ваш документ экспертным, и тогда поведенческие факторы, построенные из графа, смогут дать вам устойчивый топ даже в очень конкурентных тематиках. Также Герцоги могут не сработать, если у вас есть переспам или какие-то другие фильтры на сайте или документе.
There are no products |
MAXCACHE: 0.59MB/0.00175 sec