Latent Semantic Indexing (LSI)

Примеры из жизни. Ищете вы себе, допустим, фен. Ищете в Яндексе, никого не трогаете, а в ответ вам – нате, пожалста, феншуя испробуйте, полезнейшая вещь! Приятна такая забота. Действительно, ведь чтобы сделать себе куафюру на удачу и не допустить разбурения причи темными силами всенепременно необходимо встать челкой к востоку, а шпильки-заколки окропить феншуйной водой.

Или, к примеру, решили вы разнообразить свою интимную жизнь. А вам говорят, чуваки, мол, так и так, мода – женщина капризная, вчера рулили одни секс-игрушки, а сегодня, извиняйте, уж совсем другие – виброплиты, стабилизаторы напряжения, мотокультиваторы ну или на крайняк глубинные вибраторы – гламурно-экстремально. На свой страх и риск.

Но это ладно, русский язык, конечно, велик и могуч, но вот по сравнению с английским по части синонимии и полисемии просто нервно курит в коридоре. Nail, web, post и так далее, далее и еще много раз далее.

Так вот есть такое понятие как Latent Semantic Indexing (LSI) – по-нашенскому Скрытая Семантическая Индексация. Данная, ну скажем, технология, была изобретена в 90-х годах, чтобы решить некоторые проблемы живого языка, такие в особенности, как полисемия и синонимия. То есть какая то сложная математическая модель, определяющая, что все-таки данное слово в данном контексте означает.

Понятное дело, что для поисковых систем такая фича может быть весьма и весьма полезна: анализ документа производится не только путем совпадений тех или иных слов, LSI помогает определить, о чем же все таки ваш сайт говорит – о марке автомобиля Jaguar или о милой кошечке, мур-мур. Плюс ко всему, это может служить еще одним инструментом против спамдексинга, потому как LSI это очень даже альтернатива тривиальному анализу плотности ключевиков на странице: поисковые системы выносят вердикт о принадлежности страницы определенной тематике, основываясь не только и не столько на ключевых словах (особенно в ссылках) и их плотности, сколько на других словах в тексте, а также анализируя тексты и на других страницах сайта. Даже больше – поисковая система сравнивает ваш сайт с другими, имеющими схожий лексикон (это могут быть и сайты, и книги, и что бы там ни было еще), таким образом приравнивая ваш сайт к другим авторитетным данным и источникам – чем не любо?

Всем любо, всем мило, но у медали всегда две стороны. Немного дегтя:
- В LSI действует механизм SVD – (singular value decomposition, хоть убейте, не смогла разобраться что это такое) – неустойчивый и непрактичный с точки зрения настолько динамичной среды как веб. Кароч, смысел в том, что надо над этим делом постоянно висеть дамокловым мечом и следить, как бы чего не поменялось не приведи господь. Иначе придется на корню менять всю эту LSI. А это кому-то надо?

- Исследователи пока еще не пришли к единому мнению насчет того, сколько концептуальных «плоскостей» использовать в анализе документа. То есть, грубо говоря, анализировать ваш текст про ягура с точки зрения кошковеда, кошколюба, душегуба или душеведа? Или всех вместе? На практике они, по большей части, используют старый добрый метод тыка, но в отношении веба как огромнейшего хранилища информации, это не есть карашо.

- Очень трудно установить хорошие отношения с различными осложненными и составными словами. Т.к. не разобралась с этой штуковиной SVD, то все, что могу сказать, так это то, что они не вписываются в общее правило ентого самого механизма, поэтому попросту их сбрасывают со счетов.

Поэтому утверждать, якобы тот же Гугл использует LSI вовсю, было бы не совсем верным (по крайней мере такие данные были на началу-середине этого года). Впрочем, какие-то поисковики типа Ask, Teoma вроде как уже практикуют сию прелесть. Поэтому сео-копирайтерам, допустим, можно начать учитывать влияние LSI в своих опусах: при анализе ключевых стоит уделять большое внимание синонимам и использовать профессиональный (тематический) вокабуляр (ну то бишь, если говорим о кошечках, то так и говорим – хвост, когти, семейство кошачьих, брачный период и все такое). Весьма ценная информация.
Теперь вернусь к началу и скажу, что искать информацию – это тоже искусство. Не стоит полагаться на то, что вас вежливо спросят: «а что именно вы имели в виду, вбивая в строку поиска «web»? (кстати, имела удовольствие лицезреть сию заботу на сервисе Сorbis – хранилище всяких картинок, которое я очень люблю и отдаю ему предпочтение перед тем же Flickr). (upd. – да как же, есть в гугле подобные методы, и забыла совсем, да вот сегодня напомнили).
Спасение утопающих, как известно, нужно токмо самим утопающим, поэтому в языке запросов, скажем, Гугля, есть такая функция как “~”, которая сродни понятию «синоним». То есть вбиваем ~post - получаем серп, где первых несколько страниц касаются почты, далее идет страницы, где результаты уже относятся к постингу чего-либо. Так и ищем. Жжжжутко удобно, млин…

В яндексе же данный оператор подразумевает собой исключение какого-либо слова. То есть запрос коса~до попы означает, что в результатах вы, предположительно, не найдете ничего, напоминающего косу до попы, то есть, скорее всего, вам милостиво предложат список туристических фирм. Ну или салонов, где делают дрэды

rss feed комментариев

Нет комментариев

Seobaby

Автор/Время:

Теги:

Latent Semantic Indexing (LSI)

Please, feel free to post your own comment