Google – семантический поисковик?

Я не очень люблю переводить в последнее время, предпочитаю писать что-то свое. Но эту статью из любимого ReadWriteWeb я просто не могла не перевести. К тому же, своих мыслей по Семантик Вебу у меня пока не так уж и много))) Поехали. Перевод, как водится, волный) Точнее, даже пересказ) Кстати, рекомендую прочитать пару моих постов перед этим, они могут оказаться полезны.

Что такое Семантическая Поисковая Система?

Говорят, что Семантика – это следующий бум в поисковых технологиях. Мы, блоггеры, конечно не можем не понаписать статей по этому поводу, и, заправив все это соусом экстаза от будущих технологий, преподнести читателям, расписывая, как семантик веб перевернет вообще их жизнь, а не только юзер экспририенс) И с такой пеной у рта мы это доказываем, что в суматохе, собственно, забываем маленькую детальку рассказать – а что такое семантика?.. Вот и давайте порассуждаем. (неправда ихняя, я рассказывала. На свой профессионально-лингвистический взгляд)))

Википедия предлагает нам некоторое определение – на русском и на английском. Но вот если мне совершенно ни фига не понятно в семантическом программировании, то Фил Мидуинтер (автор статьи) не особенно втыкает в общее, изначальное определение Семантики как науки, части семиотки, науки о знаках. Но это ладно, каждый спец в своей облсти, поэтому поговорим о реалиях, о которых мы говорим здесь – о семантике поисковых систем.

Эта семантика охватывает несколько очень тесно взаимосвязанных плоскостей. И главное, что в этом отношении мы должны выяснить – сможет ли компьютер найти связь между такими словами как «собака» и «кошка». Это нам понятно, что и собака, и кошка – это домашние животные, именно так и можно их категоризировать. Это не составляет трудности понять нам, а машине? Машине очень и очень сложно.

Но допустим. Допустим, что поисковики уже функционируют как семантические системы. И что, как это поможет усовершенствовать им свой поиск?

Они могут автоматически сортировать страницы по динамическим категориям, или даже присваивать им тэги. Тоже автоматически, без вмешательства авторов. Естественно, зная, какой теме принадлежит та или иная страница, результаты выдачи будут несравнимо более точными.
Они могут предложить вам сузить или уточнить свой поиск, предлагая адекватные ключевые слова. Если ваше ключевое слово спорт, то ПС предложит вам список видов спорта, список спортивных новостей и блогов и еще, может, что-нибудь.
Более того, вместо того, чтобы предлагать вам дополнительные ключевые слова, машина может сама их учитывать, и с гораздо большим толком (вспомним «про то, как юзеры не умеют делать правильные запросы»). Пока еще не совсем понятно, послужит ли это улучшению результатов, либо, скажем так, их разнообразию.
Если ПС использует статистический анализ для получения семантических данных (своих данных, которыми она располагает в своем индексе) по определенному слову (как собирается сделать Google ), то, если слово 1 на данный момент активно ассоциируется со словом 2 (допустим, в новостях), то и слово 2 каким-то образом будет присутствовать в выдаче, скажем, в виде подсказки. Для примера автор статьи привел поиск по слову «police», где в выдаче, предположительно, может быть и подсказка в виде слова «пэры». Потому как был у них какой-то громкий скандал, связанный с пэрами и полицией))

Итак, подводит итог Фил, по его скромному мнению

Семантическая поисковая система это такая поисковая система, которая учитывает смысл слова, как фактор в ранжировании сайтов, либо предлагает юзеру прийти к более совершенному результату путем выбора предложенных ключевых слов, адекватных смыслу его ключевого слова.

Это не совсем совпадат с мнением пуристов «Семантического Веба», которые предполагают, что все свое свободное время мы должны проводить, помечая все свои записи, документы, картинки и другие файлы тэгами, для того, чтобы компьютер мог их прочитать. Простите, уважаемые, но вот Фил лично не собирается корпеть над этим, потому как ему хочется и ночью поспать, и чтобы компьютер сам вычленял смысл контекста.

Ну а Гугл что?

До совсем недавнего времени семантические технологи Гугла (которыми они обладали достаточно таки уже давно) был ограничен адсенсом. То есть рекламные блоки соответствуют вашему контенту (утверждение более чем спорное. именно потому сняла эту рекламу со своего сайта)))). Это хороший пример семантических технологий, однако к их главному достижению и специализации – поиску – пока относится мало. Но, даже сегодня, если вы ищете по одному ключевому слову, то есть шансы, что вот такой вот небольшой блок вы увидите внизу страницы выдачи:

Более или менее об этом Фил и говорил выше. Вам предлагают некоторые альтернативы – слова и фразы – которые соответствуют вашему начальному поисковому запросу. Citezen – это и банк, и марка часов и даже принадлежность какой-то стране, что-то в этом роде)) Вот это первый достаточно яркий и понятный пример того, как Гугл использует семантические технологии в своем поиске, которые работают на основе анализа контекста.

Некоторые могут задать совершенно справедливый вопрос: а почему такая схема не работает для многословных запросов? Статистический анализ контекста слова очень сложный и медленный. А если два и более слов, то это еще больше сбавляет скорости, которую так благословят все разаботчики сервисов. Да, Гугл пока имеет некоторые проблемы с анализом нескольких слов, и как всегда, опасается радикально менять свой интерфейс и не только. Применение семантики ими дает надежду, что они не приняли точку зрения пуристов Семантик Веба, где все тэгрованно и разложенно по маленьким аккуратненьким полочкам.

Гугл прекрасно понимает, в чем минусы такого подхода: юзеры тупые и ленивые, а еще раз перебирать и переиначивать миллиарды страниц и документов в своем индексе – это уж слишком. Да и подход, ессно, не самый лучший, потому как все гениальное – просто.

При этом я не считаю, что такой подход исповедует Гугл в отношении своей семантики. Вообще от себя я бы хотела добавить, что, видно, у Гугля пока силенок не хватает на нормальную «семантическую технологию». Почему? Да потому что два слова, которые в итоге дают какой-то смысл – это уже семантика! Это связи и отношения между словами! И, чтобы осилить многословные запросы, то машинам надо сначала осилить простейшую семантику на уровне взаимодействия слов. Хотя их подход к отдельным словам неплох, и может, этим даже можно гордиться, я не знаю.

Как Google может использовать семантические технологии?

Тем не менее, Фил просто уверен, что Гугл вцепится за семантику и сумеет таки внедрить ее в нормальном, не топроном виде, в свой поиск (гы, с таким финансированием и я б, пожалуй, что-нибудь придумала бы)))). И главное для поиска, конечно, не забывать ни о релевантности, ни о скорости. Сейчас даже мы поговорим не конкретно о Google, а о том, какие такие феноменальные выгоды и плюсы дает семантика поиску. Именно поиску.

«Самоопределяющиеся» страницы:

Тэгирование страниц в Интернете присутствовало всегда, и всегда это давало (по крайней мере должно было давать, по задумке ПС) всьма четкое представление о тематике страницы.
Используя Google API, мы можем создавать необходимые ключевые слова прямо на ходу, когда грузится страница. Seo будут либо счастливы, либо потеряют в деньгах и работе)))
Поисковая система с использованием Google API вообще, по сути, может не смореть на эти ключевые. Она будет генерировать их сама.
Не только страницы могут быть «самоопределяющимися». Ведь люди тэгируют все – ссылки, картинки и т.п. Гугл АПИ вообще, по идее, можно использовать для отмечания (тэгирования) всего контента на странице – вплоть до каждого слова. Нет, ну это, конечно, слишком, но просто для того, чтобы осветить возможности.

Сужение и уточнение поискового запроса:

Начиная поиск, вы вводите одну или две буквы того, что вам нужно найти, в чем вы заинтересованы.
Появляются схожие слова, из которых вы можете выбрать что-то, чтобы сузить запрос и сделать свой поиск более точным. Таким образом, все проблемы языка как бы должны решиться (а в английском их много, особенно в плане полисемии и синонимии, русский просто нервно курит).
Такой процесс повторяется на каждом этапе поиска, пока ваш «хвост» все растет и растет и даже, я бы сказала, удлиняется)))

Поиск мнений:

Потому как Гугл путем статистического анализа выискивает смысл слова в своем индексном массиве, то по сути, он просто находит множество «мнений» от страниц, на которых это слово употребляется. Косвенных мнений о том, каков же все-таки смысл данного слова. Мнений живых людей.
Вначале, можно просто выбирать между этими «мнениями» о словах и предметах. Выборка идет из всего индекса ПС.
И далее можно выбирать «мнения», скажем так, по уровням. Именно здесь мы можем наблюдать силу такого подхода к таргетироваию результатов. И это первый пример действительно социального поиска, ведь таким образом юзер сможет:
- искать мнения в хронологическом срезе: ведь текущия события, история или какие то изменения в течении времени тоже могут наложить свой отпечаток на смысл слова.
- находить мнения по географическому признаку либо по зоне домена.
- находить мнения лишь в определенной группе сайтов или только в одном сайте. К примеру, для сравнения с другим сайтом.
- и другие уровни «мнений» – социальные, религиозные группы, да все что угодно. Можно даже искать мнения о данном слове 18-летних подростков из Leeds (город в UK), тусующихся на MySpace. Смысл в том, что это беспрецедентное таргетирование информации.
Можно добавлять сайты или страницы в ваш собственный профайл, который, по-вашему, будет наиболее точно отражать ваши мнения. Эти данные могут потом учитываться во всех ваших последующих поисках, что добавит результатам «персональной релевантности».

Заключение:

Google использует семантические технологии, но назвать его полноценным семантическим поисковиком пока трудно. Он не использует NLP (Natural Language Processing), но это не барьер для появления действительно новых веб-технологий. Хотя Филу и очень противно писать об этом, но NLP скорее будет web 4.0, а вот семантический веб – web 3.0. Потому как подходы эти действительно чуток разные.

Гуглу весьма проблематично стать полностью семантичным без весьма тотальных изменений, к которым он, как говорилось выше, относится довольно настороженно. И главное, вопрос в том, нужно ли Гуглу становиться полность семантическим поисковиком.

Вот такая вот статья. Я чуть-чуть разочаровалась. Статья хорошая, но, по-моему, семантический поиск не приравнивается к поиску социальному. То есть персональному (что суть одно и то же во многих случаях. Парадокс, да). И то, что тут описываются успехи Гугла, по-моему, лишь какая-то попытка сказать, что Гугл вам всем еще покажет. Хотя вроде бы и независимый этот разработчик (хотя шайтан его знает). Гугл никогда уже не сможет себя перепозиционировать, и они это понимают сами. И не будут они никогда полностью семантическим поисковиком. Другое дело, что им легче открыть другой поиск полностью семантический. Но их семантика еще на зачаточном уровне. Думаю, что они не полезут с этим раскручивать свой другой поисковик. Да и как они его преподнесут? Новый поиск, который учитывает все ваши пожелания? Так такие уже есть, полно.. В той или иной мере могие поисковики исповедуют такой подход. По крайней мере, пытаются. Или новый Семантический поиск? А эпиграфом будет стоять определение семантики в Википедии?

Короче, имхо, статья с некоторой стороны интересная. Просто.. да.. я не пылаю любовью к Гуглу, признаю. Хоть и поиском его пользуюсь и почтой. Я не испытываю неприязни к его сервисам, просто мне не нравится его политика, скажем так. И мне не нравится, чем закончилась эта статья. Всмысле о «феноменальных перспективах». Они не феноменальны.
Вот понимаете… Короче, все гениальное просто, и я не устаю это повторять. Нельзя все усложнять. А пока у них путь такой, что они надстраивают, надстраивают и надстраивают. А может, нужно всего лишь пару деталек мелких изменить внутри велосипеда? Или, может, просто поменять их направление…

Даже тот же семантик веб, а не только Гугл. Все как-то очень сложно.. И должен быть другой выход. Но пока его не видят.. Может быть потому, что мостик к нему должен выстраиваться из таких вот настроечек, и только они будут верной дорогой.. Все, что ни делается, так оно и нужно. Просто я уверена, что все проще. Как – мне сказать трудно, ибо я всего лишь училка..

rss feed комментариев

Комментарии(11)

Артём Курапов:

27 Март 2007 в 12:50

Я как раз пишу диплом по поисковикам.. Может в будующем разовъётся некий распределённый поиск, в аналогии с развитием информационныйх источников из газет в блоги. Каждый будет заниматься своими поисками, это будет сохранятся и на основе его предпочтений и ассоциаций (социальных закладок?) можно будет создавать общую ассоциативную картину понятий (через RDF?)..

Ответить
blogger:

27 Март 2007 в 14:37

интересно, кто всё это печатал?

Ответить
seobaby:

27 Март 2007 в 15:50

Артем, я думаю, что придумать можно все что угодно, осуществить почти все. другое дело, что не факт, что это надо. чем более изощренные подходы, тем на меньшую аудиторию они рассчитаны. Поверьте, коммерческие сайты никогда не дадут умереть поисковикам)))) они будут его главной движущей силой)))
и вот лично я бы не согласилась на личный поисковик. я не знаю чего я хочу. я просто хочу умный поиск. который бы мыслил как человек, ну хотя бы в приближенном значении.

blogger, вы что имеете в виду?

Ответить
butolin:

30 Март 2007 в 09:12

вай, какая умная женщина)

Ответить
Alex:

21 Ноябрь 2007 в 15:40

И неграмотная…

Ответить
seobaby:

7 Декабрь 2007 в 13:02

Alex, ну вы такой настойчивый мужчина, я поражена. Примените свою настойчивость в другом месте, я это уже слышала от вас. если хотите, чтобы это знали все – напишите на Хабре лучше.

Ответить
Glen:

7 Декабрь 2007 в 14:34

«гы, с таким финансированием и я б, пожалуй, что-нибудь придумала бы»

Не всё так просто – лбвиная доля этого финансирования идёт на то, чтобы закупать железо и создавать софт для лавинообразно плодящегося контента. Иными словами, Google больше развивается «вширь», чем «вглубь» (повышение степени релевантности поиска)

Ответить
Огарок Андрей:

12 Март 2008 в 23:32

Замечательная статья. Гуглу действительно далеко до семантического поиска. Его жалкие попытки использования Википедии и предобработки запросов пользователя для создания иллюзии QA поиска так далеки от NLP. Но коммерческий подход для Гугла важнее научного. Поэтому и так сойдет. А для того, чтобы понять как могло бы быть надо либо быть специалистом по NLP, либо почитать материалы конференций TREC, РОМИП и др.

Ответить
Дмитрий:

17 Апрель 2008 в 11:09

>»Это не совсем совпадат с мнением пуристов “Семантического Веба”, которые предполагают, что все свое свободное время мы должны проводить, помечая все свои записи, документы, картинки и другие файлы тэгами, для того, чтобы компьютер мог их прочитать».

Это не совсем так, достаточно создавать семантические сервисы. Ну или просто сервисы вроде одноклассников. Вы вводите данные, а сервис уже сам определяет семантические связи на основе готовых онтологий.

Ответить
Dan:

18 Апрель 2008 в 13:47

«…рекламные блоки соответствуют вашему контенту…»
Если посмотреть на тэги в этом блоге, то никакие семантические технологи Гугла не подберут ему релевантный адсенс.

Ответить
mixmagtmb:

1 Май 2008 в 17:14

«я просто хочу умный поиск. который бы мыслил как человек, ну хотя бы в приближенном значении.» UNREAL

Ответить

Seobaby

Автор/Время:

Google – семантический поисковик?

Please, feel free to post your own comment