Опубликовано в журнале Отечественные записки, номер 4, 2003
Существующие рейтинги СМИ нацелены в первую очередь на исследование
аудитории и отражают только количественные показатели, а вовсе не содержательную, качественную сторону издания. Характерный пример — газета «Из
рук в руки», один из лидеров по тиражу
и размеру читательской аудитории
в Москве и по России, не может считаться влиятельным изданием, что подтверждается, в частности, практически
полным отсутствием ссылок на нее
в российской прессе. А между тем именно влиятельность медиа, которая зависит от оценки издания журналистским
сообществом, актуальности, достоверности материалов, важна и интересна
читателю и рекламодателю.
В Интернете функционально близкая
задача — определение степени весомости
отдельного сайта — решается построением «ранга страницы» (PageRank —
в Google, Взвешенный индекс цитирования (ВИЦ) — в Яндексе). При расчете
этого показателя используется информация о количестве ссылок на страницу
и об индексе цитирования ресурса, разместившего ссылку. Другими словами, учитывается не только количество ссылок,
но и качество — вес того, кто их разместил. Поисковым машинам в Интернете
такой критерий оценки сайтов необходим, чтобы при выдаче результатов поиска, когда релевантных запросу результатов
тысячи, показывать сначала документы
из наиболее авторитетных источников.
Этот принцип определения авторитетности издания впервые был применен
для научных журналов в шестидесятых
годах XX века. Юджин Гарфилд (Eugene
Garfield), основатель филадельфийского
института научной информации (Institute
for Scientific Information — ISI), ввел понятие «импакт-фактор» и разработал метод его подсчета. Импакт-фактор журнала — это отношение числа всех ссылок за
определенный год на статьи журнала,
опубликованные за два предыдущих года, к числу этих статей. Такой метод, по
мнению Гарфилда, в некоторой степени
уравнивает в правах молодые и старые
журналы (учитываются ссылки только на
статьи последних двух лет, а не за всю историю журнала), журналы большие и маленькие (импакт-фактор — это среднее
число ссылок на статью журнала, от количества статей в выпуске и периодичности издания он не зависит).
Кроме импакт-фактора еще одним
важным инструментом оценки изданий
является индекс «cited half-life», показывающий, насколько долго сохраняют актуальность статьи данного журнала.
«Cited half-life» — то число предществующих лет (считая от текущего года), когда
были опубликованы материалы, на которые приходится 50 процентов всех ссылок за текущий год.
Вполне объяснимо желание воспользоваться опытом, накопленным за последние десятилетия мировым научным
сообществом в оценке влиятельности научных изданий, и попытаться применить
разработанные методы к средствам массовой информации. Однако при ближайшем рассмотрении становится очевидно,
что сделать это практически невозможно:
различий у научных и ненаучных изданий
больше, чем общего. Но можно воспользоваться принципами и установками, которыми пользовались их создатели.
Основное препятствие для простого
переноса методов ISI на средства массовой
информации — особенности национального цитирования. Проблема при подсчете
ссылок на издание состоит в выделении их из текста. В прессе нет ничего подобного строгим библиографическим стандартам научной литературы. Название
издания — дата выпуска («КоммерсантъДейли», 30.01.2003) — редкость, не говоря
уже об указании заголовка материала или
автора. Но даже когда эта информация и
присутствует, дается она в свободной форме, «на естественном языке», и ее опознание требует довольно изощренного лингвистического анализа документа:
Так, например, газета «Коммерсантъ» 28 апреля 2003 года в статье
«Оборона» перешла в наступление…
[Советская Россия, 06.05.2003].
В некоторых контекстах не только
машине, но и человеку трудно понять,
ссылка перед ним или нет. Нередки случаи предположительных ссылок при цитировании «на память»:
Однажды Глеб Олегович Павловский
прочитал в газете (я могу путать, но
кажется, это был «Коммерсантъ»)
статью о Билле Гейтсе и его новом
проекте — электронном журнале
«Slate» [Октябрь, 11.11.2002. На самом
деле никакой конкретной статьи нет].
Часто дается отсылка к источнику
в общем, не к конкретным публикациям,
или даже группе источников:
При подготовке справки использованы
материалы ИД «Коммерсантъ»…
[Отечественные записки, 2003, № 1].
Информацию о стоимости пая ПИФ
«Альфа-Капитал» можно получить
<...> из публикаций в газетах «Коммерсантъ» и «Ведомости» [Биржа
(Н. Новгород), 14.10.2002].
Нередки ссылки «второго порядка»:
В тексте презентации действительно имеются ссылки на финансовую отчетность Сбербанка, отчеты десятка инвестиционных банков
и публикации газеты «Коммерсантъ»
[Ведомости, 11.12.2002].
К проблемам автоматического лингвистического анализа добавляются чисто
технические сложности определения
ссылки на издания — в тех случаях, когда:
— издание является не источником,
а объектом сообщения;
— цитируется представитель издания, скажем, по интервью или беседе, но
не по публикации;
— частично совпадают названия разных источников (Коммерсантъ, Коммерсантъ-Власть, Коммерсантъ-СПб.);
— приводятся разные названия одного издания (Комсомольская правда,
КП, Комсомолка);
— название издания совпадает с обычными общеупотребительными словами
русского языка (Коммерсантъ, День, Известия, Версия).
Кроме того, не очевиден вопрос определения количества статей/документов
для газеты или журнала (рубрика «Новости одной строкой» или «Письма читателей» — это один документ или несколько; новостной выпуск на телевидении —
как считать?).
Второй важной проблемой при определении цитируемости издания является
неоднородность разных типов СМИ. Вопрос в том, какой вес приписывать цитирующим изданиям. По методике Юджина Гарфилда подсчет ссылок производится
только по изданиям одной тематики с исследуемым. Кроме того, выделяются в отдельную группу обзорные журналы, так
как на обзорные статьи ссылок делают
больше, чем на оригинальные. С другой
стороны, и сами обзорные, и реферативные журналы цитируют и ссылаются на
другие работы чаще и по другим принципам. Подобные различия в природе изданий цитируемых и цитирующих учитываются при составлении импакт-фактора.
СМИ можно разделить на следующие группы: информационные агентства с собственной корреспондентской сетью, центральная печать, региональная
печать, телевизионные каналы (новостные и аналитические передачи), радиостанции, интернет-издания и информационные агентства без эксклюзивного
контента. Внутри одной группы издания
крайне неохотно ссылаются друг на друга. Так, нет ни одной столичной газеты,
которая бы цитировала «Коммерсантъ»
в среднем хотя бы раз в месяц, при том
что новости НТВ ссылаются на эту газету около десяти раз в месяц. Региональные газеты цитируют центральные
в полтора-два раза чаще, чем центральные друг друга, а интернет-издания
и информационные агентства с большой долей заимствованных новостей могут ссылаться на одну газету несколько раз в неделю.
И все-таки, несмотря на все сложности, с некоторыми оговорками можно утверждать, что метод определения качественного рейтинга СМИ существует.
В настоящей версии импакт-фактор
рассчитывается для информационных
агентств, газет, журналов и интернет-изданий. За временной период, равный одному месяцу, подсчитывается количество
ссылок на определенный источник среди
всех СМИ из вышеуказанных групп, которое делится на число сообщений/документов, выпущенных этим источником
за этот месяц. Таким образом, мы получаем ежемесячный импакт-фактор каждого информационного источника. Отклонения от методики ISI объясняются
тем, что периодичность СМИ значительно выше, чем у научных изданий, и время
сохранения значимости/актуальности
документов — время «полураспада» (cited
half-life) — гораздо меньше. С другой стороны, для определения влиятельности
средства массовой информации важно,
сколько изданий составляют его импактфактор, какова его зона влияния. Для отражения этого качества источника мы
вводим свой индекс, аналог филадельфийского времени «полураспада», — минимальное количество источников, обеспечивающих половину всех ссылок на
исследуемое издание за учетный период
(один месяц).
На базе технологий поиска и текстового анализа Информационное агентство Integrum разработало инструмент,
позволяющий определять ссылки на
конкретное издание в текстах других
СМИ. Для исследуемого издания могут
быть выявлены все СМИ, ссылающиеся
на него за определенный период времени, количество ссылок в каждом издании, даты ссылок.
Integrum располагает архивами
СМИ, которые постоянно пополняются,
и это позволяет не только получать максимально свежую информацию о цитируемости любого конкретного издания,
но и следить за ее динамикой.
Для получения аналога импакт-фактора нужно суммировать ссылки из всех
СМИ. Это возможно. Но при подсчетах
нужно учитывать, что тип цитирующего
издания влияет на вес ссылки в нем.
С точки зрения расширения аудитории сообщения ссылка в телевыпуске новостей значительно весомей цитаты
в центральной газете, однако содержательно эти ссылки — показатели разных
свойств цитируемого материала. Грубо
говоря, ссылка на газету в газете отражает в первую очередь эксклюзивность материала (например, интервью только этому изданию высшего должностного
лица) — особняком стоят случаи полемического цитирования. В том случае, когда на газету ссылается телеканал, скажем
в дневном или вечернем новостном выпуске, оцениваются скорее содержательные стороны материала — сегодняшняя
печать просто один из каналов актуальной информации, из которого можно выбрать наиболее важное и интересное, не
боясь показаться непрофессиональным
и сделать ненужную рекламу конкуренту.
Каждому виду СМИ присваивается
коэффициент, отражающий значимость
ссылки для цитирующего издания. Этот
коэффициент обратно пропорционален
средней частоте цитат на один выпуск
для данного типа СМИ. Типы изданий
в порядке убывания этого коэффициента — центральные журналы, центральные газеты, информационные агентства,
телевидение, радио, интернет-издания.
С помощью импакт-фактора определяется влиятельность, авторитетность не
только СМИ, но и политических и общественных деятелей. Индекс авторитетности политика рассчитывается следующим образом: за отчетный период для
каждого издания подсчитывается количество статей, в которых содержится прямая цитата или ссылка на слова человека.
Для каждого издания число таких статей
умножается на импакт-фактор, и итоговый индекс — это сумма всех таких произведений.
Обрабатывая данные о цитатах
и ссылках, мы получаем и другие любопытные данные. Например, выявляются
издания, наиболее охотно ссылающиеся
на изучаемое, и издания, которые никогда не ссылаются на него, — что позволяет установить взаимосвязи между источниками одного информационного поля.
Возможные применения таких сведений — планирование максимально эффективной PR-кампании, предварительная оценка достоверности определенной
информации, появившейся в различных
информационных источниках.
Первые результаты внушают оптимизм. И яснее становятся пути усовершенствования уже работающей системы.
Прежде всего это дальнейшее развитие
методов текстового анализа, которые
позволят полнее и точнее определять цитаты и отсылки.
Одно из смежных направлений — определение первоисточника сообщения
или источника, первым передавшего некоторое сообщение. Получение такой
информации позволит сделать понятие
влиятельности издания более осмысленным и содержательным, ведь будет учитываться реальное использование изданиями чужих материалов даже при
отсутствии явных ссылок. Кроме того,
появится возможность оценивать информативность издания — мы сможем считать уникальные, не представленные
в других изданиях сообщения.
Несмотря на все сложности, очевидно, что применение к СМИ принципов
и методов оценки влиятельности и авторитетности, разработанных и широко
используемых в научном сообществе,
возможно и продуктивно.
Справка подготовлена Львом Гершензоном