Опубликовано в журнале Новый Мир, номер 6, 2006
Интернет и язык
Замкнутая информационная модель. Интернет представляет собой не только технологический феномен, но и феномен языковой — лингвистический. Будучи пространством глобальной коммуникации, он влияет на язык, на лексику, на словоупотребление. Его реакция на новые языковые явления почти мгновенна, он отзывчив и неразборчив.
Если мы возьмем пару “означающее” — “означаемое”, то в Интернете, как в замкнутой информационной модели, соответствие между ними устанавливается очень легко. Оно неоднозначно, но статистически взвешенно. Установление связи между означаемым и означающим всегда возможно, потому что они принадлежат единому пространству и существует инструмент установления этого соответствия.
Возьмем любое слово и введем его в качестве запроса в поисковую систему Яндекс или Google. Поисковик выдаст нам некоторый (возможно, очень большой или, напротив, пустой) набор ссылок на различные интернет-ресурсы — страницы, сайты, блоги, — объединение этих ресурсов и является означаемым. Причем поисковая система сама решает, какой ресурс изо всего набора максимально близок (релевантен) к нашему означающему. Поисковая система делает свой выбор, используя специальные алгоритмы ранжирования результатов. Эти алгоритмы, как правило, не разглашаются, и для пользователя они недоступны. Создатели поисковых систем полагают, что закрытость в данном случае обеспечивает объективность поиска: не зная деталей алгоритма, невозможно манипулировать работой поисковика, невозможно так подстроить свой ресурс, чтобы он оказался на первых позициях в списке поисковых результатов.
Такова в самых общих чертах лингвистическая модель, которая реализуется в глобальном информационном пространстве. Она проста, оперативна, замкнута относительно операции поиска и действительно глобальна: в поисковом индексе Google на сегодня около девятнадцати миллиардов документов на всех языках мира.
В этом глобальном информационном пространстве действуют люди. Они создают ресурсы, они формируют поисковые запросы, они же пишут поисковые системы — то есть создают инструменты навигации по этому океану. И все они взаимодействуют друг с другом и с информационным пространством.
О некоторых моментах этих взаимодействий я хочу сегодня поговорить.
Яндекс на страже нового русского языка. В Яндексе есть сервис проверки орфографии — Query-based speller (можно перевести название примерно так: “Уточнение правописания на основании анализа запросов”). Первоначально он работал таким образом: если в запросе содержалось слово, отсутствующее в базовом словаре, Яндекс брал на себя смелость предлагать исправить это “плохое”, по его мнению, слово на “хорошее” — близкое по написанию и словоупотреблению. В этом случае под строкой поиска появлялась фраза: “Опечатка? возможно, имелось в виду: [предлагаемое └хорошее” слово]”.
Затем сервис был несколько модифицирован, поскольку, с точки зрения Яндекса, этого сегодня уже недостаточно. Один из разработчиков сервиса Алексей Пяллинг так объяснил происшедшие изменения: “└Обычный” словарь — это, конечно, хорошо. Но в наше время, когда новые слова появляются чуть ли не каждый день, поддерживать актуальность словаря невозможно. Сами посудите, ежедневно регистрируются новые фирмы, появляются новые музыкальные группы, новые спортсмены выигрывают новые соревнования. Возникающие при этом новые слова часто бывают непроизносимыми, нечитаемыми и даже непечатными. Разбором и анализом таких ситуаций в Яндексе как раз и занимается новый алгоритм, автоматически строящий словарь исправлений. Запросы пользователей собираются и анализируются, обрабатывается статистика. Если оказывается, что по какому-то слову есть много вариантов исправлений, то из кластера выбирается похожее слово из наиболее распространенных в Интернете. Таким образом, появляется база пар └плохих” и └хороших” слов — слов с ошибками и исправленных, и каждое слово в запросе пользователя теперь проверяется по такому └народному” словарю”.
“Афтар” и “автор”. Инициатива — наказуема. И Яндекс начал получать письма возмущенных пользователей, которые обвинили поисковик в безграмотности. На одно из таких писем ответил директор Яндекса по технологиям и разработке Илья Сегалович: “Нам задают вопросы про Query-based speller, который наряду со словарным орфографическим корректором работает на поиске Яндекса. Автор письма пишет: └Однако меня все равно не устраивает, когда в ответ на запрос ▒афтор▒ с одной опечаткой мне говорят, что, возможно, следует писать ▒афтар▒, а не ▒автор▒”. Отвечаем: [автор] и [афтар] — два разных слова, они принадлежат к двум разным пластам языка, имеют разную сочетаемость. По ассоциациям запросов видно, что такую опечатку делают т. н. └падонки”, которые намеренно пишут это слово через └ф”. Нормальный человек не поставит случайно вместо └в” букву └ф” — и по звучанию не похоже, и расположена она на клавиатуре не рядом. Иными словами, замену [афтор] — [афтар] мы считаем вполне адекватной. Более того, по-видимому, орфографической ошибкой является написание [автор жжот]. Правильно [афтар жжот]””.
Если выполнить запрос “афтар” — Яндекс дает около полумиллиона упоминаний. Этого достаточно, чтобы сказать, что слово адаптировано языком. Впрочем, запрос “афтор” дает тоже немало — около двухсот тысяч ссылок. Причем контекст примерно тот же, что и у слова “афтар”, — сочетание “афтор жжот”, которое Илья Сегалович предлагает считать опечаткой, тоже широко распространено. Но с традиционным “автор” пока ни одно из этих написаний конкурировать не может — “автор” упоминается примерно 150 миллионов раз и побеждает за явным преимуществом.
Появление в русском языке большого количества намеренных искажений и даже возникающий языковой пласт — “новый русский язык, нах” — стал темой статьи “У языка есть афтар” в журнале “Русский NewsWeek”. Это явление исследовал известный филолог, профессор Боннского университета Гасан Гусейнов в статье “Берлога веблога. Введение в эрратическую семантику” <http://speakrus.ru/gg/microprosa_erratica-1.htm>.
“Эрратический” (англ. erratic) можно перевести как “переменчивый, непостоянный” (от латинского “erratum” — опечатка, недосмотр). Эрратическая семантика, как ее определяет Гусейнов, — это семантика, возникающая при намеренном искажении слова. Областью исследования известного филолога стала “эрратическая семантика” в ее бытовании в “Живом журнале” (“ЖЖ”). Но на сегодняшний день можно сказать, что “афтары” уже в изобилии разбрелись по всему русскоязычному Интернету.
Новый сервис Яндекса — проверка орфографии Query-based speller, чутко реагируя на перемены, возникающие в языке, в определенном смысле способствует нормализации и закреплению этих перемен. Норма возникает естественным образом — накоплением словоупотреблений. Выработанная Яндексом орфография ненавязчиво (как вариант запроса) напоминает, что нормой большинство носителей считает написание “афтар”, а не “афтор”. Но Яндекс тем самым как бы расщепляет традиционное слово “автор” по областям употребления и нормализует новое слово “афтар”. Это многим не нравится, поскольку происходит искажение традиционной лексики. То, что Яндекс сумел настолько оперативно отреагировать на языковые перемены введением нового сервиса — “гибкого” определения правописания, говорит о том, что технические средства сегодня, как никогда, совершенны. Но всегда ли стоит их настолько оперативно приводить в действие?
Много новых слов. Профессор брюссельского Открытого университета и сотрудник лаборатории Sony Computer Science в Париже Люк Стилз (Luc Steels) совместно с коллегами из римского университета “La Sapienza” опубликовал работу, посвященную динамике вхождения новых слов в язык. Ученым удалось построить простую математическую модель, которая описывает механизм распространения новых слов в сетевой среде, лишенной какого бы то ни было централизованного управления. Каким образом новое слово становится понятным всем членам большого социума, хотя никто не принимал закона о его применении? Но слова постоянно возникают и входят в язык, а последние десять — пятнадцать лет это случается едва ли не каждый день.
Во вступлении к своей работе авторы пишут: “Bluetooth, blogosphere, greenwash. Лексикографы каждый год добавляют тысячи новых слов в словари и анализируют использование гораздо большего количества новых лексем”. Все приведенные английские слова действительно являются новыми — им от силы три-четыре года, и они активно употребляются. “Bluetooth” — это вид радиосвязи на коротких расстояниях. Он стал популярен из-за широкого распространения наладонных компьютеров (и других мобильных устройств), которым необходимо связываться и с настольными компьютерами, и друг с другом. “Blogosphere” — это специфическая среда, которую в Интернете образуют блоги — интернет-дневники. А “greenwash” — это совсем не компьютерный термин. Буквально он означает “зеленая мойка” — так называют действия компании, которая пытается сделать вид, что она борется за чистоту окружающей среды. Greenwash необходим, чтобы повысить доверие к компании, а значит, и ее капитализацию. Чаще всего гринвош — это чисто внешние действия, которые, не меняя ничего по существу в работе компании, только подправляют ее имидж.
Это очень разные слова, но все они появились совсем недавно и, в общем, хорошо прижились.
Слово входит в язык. А как слово входит в язык? Компьютерная модель, предложенная учеными, представляет собой программную среду, в которой “обитает” большое количество программ-агентов и находится некоторое количество объектов. В реализованной на сегодня модели рассматривается всего один объект (Объект), который должен получить свое название. Это сделано для упрощения вычислений, но модель с большим количеством объектов будет работать точно так же. Задача агентов — придумать имя для Объекта. Они располагают неограниченным запасом слов (словарем), и каждый агент первоначально может назвать Объект любым словом из словаря. Так начинается “name game” — игра, целью которой является создание имени, понятного всем агентам — участникам коммуникации. Игра проходит по таким правилам: каждый агент может общаться с каждым, что вполне реалистично для сегодняшней коммуникативной ситуации, в которой каждый пользователь Сети может контактировать с любым другим. В контакте есть Говорящий и Слушающий. Когда Говорящий называет Объект тем словом, которое он для него придумал, например valem, Слушающий понимает его или не понимает. Слушающий не понимает, что сказал Говорящий, если не знает, что Объект можно назвать valem — так, как его назвал Говорящий. Тогда Слушающий добавляет это слово в свой собственный маленький словарь — теперь он знает, что объект, который он сам называл, например, aknorab, можно называть и по-другому. Если при одном из последующих контактов кто-то обратится к Слушающему и вновь назовет объект valem, Слушающий его поймет — после этого словари обоих участников успешного контакта будут очищены от всех других слов, кроме слова valem. Теперь они знают, как называть Объект, и при дальнейших контактах будут его называть только valem, инициируя распространение этого слова. Так строится языковая игра. Несмотря на свою простоту, она выглядит вполне реалистично для той языковой ситуации, которая возникает в глобальном информационном пространстве, когда требуется поименовать новое явление.
В модели, которую построили исследователи, использовалась тысяча программ-агентов. Словари агентов первоначально быстро разрастались. Общее число слов в системе превышало 10 тысяч, а число различных слов для обозначения Объекта достигало 500. Но когда произошло примерно 50 тысяч двусторонних игр — осталось только одно-единственное слово. Это кажется почти удивительным, но при таких условиях игры постепенно вытеснялись все возникающие синонимы и агенты приходили к глобальному пониманию. Поскольку контакты происходят случайно, нельзя сказать заранее, какое именно слово из всех придуманных агентами в результате победит. Но победит одно слово — только такая ситуация устойчива.
В предложенной модели Говорящий имеет преимущество перед Слушающим. Именно слово Говорящего войдет в словарь Слушающего и получит преимущество при дальнейшем распространении. Если Говорящий будет всего один или только небольшая группа агентов будет обладать правом голоса, в конце концов победит слово одного из них. При условии глобальных контактов всех со всеми это неизбежно. При этом произойдет непременное вытеснение всех синонимов — они будут утрачены.
Именно так происходило вхождение в язык слова “блог”. Первоначально появилось английское словосочетание “web-log” — его переводили на русский язык по-разному — и интернет-журнал (что является почти дословным переводом), и интернет-дневник (что наиболее точно передает характер явления). Но постепенно английское слово трансформировалось в “blog”, и его просто перестали переводить каким-либо русским словосочетанием. Оно вошло в русский язык как “блог”. А во многих языках, использующих латиницу, слово “blog” было принято вообще безо всяких изменений.
Когда мы рассматриваем сегодняшнюю ситуацию, то должны констатировать, что Говорящий сегодня во многих случаях англоязычен, особенно часто это случается, когда речь идет об Интернете и высоких технологиях. А согласно приведенной модели, Говорящий всегда побеждает.
“Язык подобен океану”. Язык несравнимо более подвижен сегодня, чем когда бы то ни было. И периодически возникают проекты защиты языка. Это характерно не только для российских парламентариев, но и, например, для английских филологов, которые обеспокоились тем, как влияют на письменную речь тотальные сокращения, используемые в SMS или интернет-пейджерах (ICQ), очень популярных у молодого поколения.
Не исказим ли мы, не потеряем ли русский язык? Лев Рубинштейн, отвечая на вопросы ПОЛИТ.РУ, сказал: “…я этот наш с вами родной язык не просто люблю, а эротически люблю. И эту его способность все в себя впитывать и в результате все поэтизировать считаю его невероятным, волшебным качеством. Более того, в нашей вымороченной и вполне призрачной социальной жизни язык представляется мне едва ли не единственной реальностью. Я не верю в то, что его можно испортить и отравить, он вроде океана в смысле способности к самоочищению”.
Когда я смотрю на процессы, протекающие сегодня в Интернете, то уже не чувствую такой незыблемой уверенности, ведь человеку вполне по силам отравить океан.