Яндекс опубликовал отчет по проведенному исследованию так называемого рунета. Некоторые моменты интересно почитать. Этот информационный бюллетень рассказывает о контенте Рунета. Основные данные отчета получены от поиска Яндекса. Также использовались данные поиска Яндекса по картинкам и по видео. Данные исследования охватывают только открытые веб-страницы — для того чтобы попасть на них, не требуется ввод логина и пароля. В данном исследовании под «Рунетом» подразумеваются сайты, написанные на русском, украинском, белорусском или казахском языках, а также сайты на любых языках, размещенные в национальных доменах .am, .az, .by, .ge, .kg, .kz, .md, .ru, .su, .tj, .ua или uz. Рассматривались текстовые копии всех открытых веб-страниц Рунета, которые хранятся в индексе поисковой системы. Рунет меняется очень быстро, и в силу разных технических ограничений база Яндекса не может быть абсолютно точной его копией.1. Введение2. Виды информации2.1 Текст2.2 Картинки2.3 Видео2.4 Звук3. Язык Рунета3.1 Частоупотребляемые слова3.2 Эмоции 3.3 Географические наименования3.4 Новые слова3.5 Ошибки3.6 Изменение норм русского языкаПриложение 1. Основные цифры и фактыПо данным поиска Яндекса на осень 2009, в Рунете — около 15 миллионов сайтов(Cайт — объединённая под одним доменным именем совокупность страниц. Например, страницы с адресами http://site.livedragon.ru/a и http://site.livedragon.ru/b относятся к одному сайту. А страницы http://b.site.livedragon.ru и http://livedragon.ru — к разным. Наличие или отсутствие в адресе страницы приставки www не важно, то есть http://www.livedragon.ru — это тот же сайт, что и http://livedragon.ru). Это 6,5% от всего интернета (По оценке Netcraft, в октябре 2009 года в сети насчитывалось 230,4 млн сайтов). Российские пользователи интернета (По данным ФОМ на лето 2009, количество российских пользователей интернета — 37,5 миллионов. Количество пользователей интернета в мире, по данным Internet World Stats на июнь 2009, — 1,7 миллиарда) составляют 2,2% от всех пользователей интернета — то есть на одного пользователя в Рунете приходится больше сайтов, чем в среднем в мире. Только в текстовом формате (без учета картинок, аудио- и видеофайлов) в Рунете размещено более 140 тысяч Гб данных (Здесь и далее расчеты без учета дублей (идентичных страниц, которые дублируются под разными адресами). С учетом дублей объем данных Рунета достигает почти 200 тысяч Гб). Информация в сети распределена неравномерно. 88% всего текста находится менее чем на одном проценте сайтов. Треть всех картинок размещена на четырех крупнейших фотохостингах.Средний сайт Рунета состоит из 255 страниц, содержит 159 тысяч слов и 204 картинки. Большинство сайтов гораздо меньше среднего — половина сайтов в Рунете состоит всего из одной страницы. В среднем на одном сайте сейчас столько же страниц, сколько и десять лет назад — в 1999 году средний сайт состоял из 251 страницы. Одна страница занимала тогда около 9 Кб, а по данным на 2009 год — 39 Кб. Всего сайтов в Рунете в 1999 году было в 300 раз меньше, чем сейчас.По оценке поиска Яндекса, четверть сайтов Рунета — это поисковый спам, то есть страницы, которые почти не содержат полезной информации, и созданы, чтобы привлекать посетителей на другие сайты или влиять на их ранжирование в поисковых системах.В 2000 году количество сайтов в Рунете выросло по сравнению с 1999 более чем в три раза, а среднее число страниц на одном сайте в 2000 году уменьшилось до 139. Начиная с 2002 года среднее количество страниц снова стало расти.Основные виды данных в интернете — это текст и картинки. В интернете они также выполняют служебные функции — с помощью текстов и картинок создается оформление сайтов. Кроме базовых видов данных в интернете используют флеш, видео и звук. Самый распространенный из них тип передачи информации — флеш — специфичен для интернета. Флеш-объектами могут быть изображения, видеоролики, элементы интерфейса и т.д. Хотя бы один флеш-объект есть почти на 15% сайтов Рунета. Звуковые файлы и видеоролики встречаются существенно реже. Видеоролики есть где-то на 3% сайтов, а звук в MP3 — менее чем на 0,5%.В открытом доступе — без учета страниц, доступных только после ввода логина и пароля, — в Рунете опубликовано около 2,3 триллиона слов. На каждого российского пользователя приходится более 60 тысяч слов — этого хватило бы на книгу стандартного формата в 280 страниц (По данным поиска Яндекса, за осень 2009, если все слова Рунета записать на бумаге, получится куб высотой с девятиэтажный дом. 10,5 млрд страниц 35 млн книг).89% всех сайтов содержат совсем немного текста — в среднем по 1630 слов, как полторы журнальных страницы. На один большой сайт (таких менее 1%) приходится в среднем 18 миллионов слов — объем текста небольшой домашней библиотеки из 250-300 книг.По данным Яндекса на лето 2009, в Рунете размещено по крайней мере 1,6 миллиарда уникальных изображений (Полностью все фотографии, размещенные на фотохостингах, роботом Яндекса не индексируются. Их очень много, и часть фотографий размещена на закрытых страницах —например, с доступом только для друзей или за паролем) — это фотографии и рисунки, элементы оформления страниц, рекламные баннеры и т. п. Картинок, которые можно увидеть в Рунете, в том числе тех, которые отображаются сразу на нескольких сайтах, несколько больше — около 2,1 миллиарда. То есть в среднем где-то две трети картинок можно увидеть только на одном сайте, а остальные — на двух и более.Каждый третий сайт не содержит ни одной картинки, а еще половина использует для оформления не более десятка изображений. В общем количестве картинок не учтены фотографии, размещенные на крупных фотохостингах (Полностью все фотографии, размещенные на фотохостингах, роботом Яндекса не индексируются. Их очень много, и часть фотографий размещена на закрытых страницах — например, с доступом только для друзей или за паролем).На четырех крупнейших фотохостингах Рунета — Photofile.ru, Radikal.ru, Фото Mail.ru и Яндекс.Фотки — находится, по их собственным оценкам, в общей сложности почти 800 миллионов картинок, загруженных пользователями. То есть на одного пользователя Рунета приходится в среднем 21 фотография на хостингах и еще 57 картинок с остальных сайтов.Видео в Рунете популярнее звука — в том числе благодаря видеохостингам, позволяющим легко добавлять новые видео и вставлять уже загруженные ролики на другие сайты.На крупнейших видеохостингах Рунета без учета файлобменных и социальных сетей, а также YouTube.com (Точное число русскоязычных роликов и роликов, размещенных пользователями Рунета на сайте YouTube.com, неизвестно) размещено, по данным поиска Яндекса на лето 2009, 7,2 миллиона видеороликов. Ролик, размещенный на видеохостинге, можно легко вставить на любую страницу, где его можно будет просматривать. Таких видеовставок в Рунете — по крайней мере 19,1 миллиона (в том числе с YouTube), их можно увидеть по крайней мере на 2,4% сайтов Рунета. Другой способ распространения видеороликов — с помощью прямой ссылки на видеофайл — популярен гораздо меньше. Его используют около 0,7% сайтов Рунета.Самый популярный формат звуковых файлов в сети — МР3. Сайтов, где есть ссылка на МР3-файлы, в десять раз больше, чем тех, где встречаются ссылки на файлы в форматах WAV, WMA и RAM. В целом звук нельзя назвать распространенным в открытом (доступном без регистрации и ввода пароля) интернете типом информации. Сайтов, где в открытом доступе выложены МР3-треки, — менее 0,5% от общего количества.Значительная часть треков, по всей видимости, — музыкальные композиции. Кроме того, заметную долю звука в интернете занимают аудио-подкасты — записанные пользователями выступления на разные темы. Сайт rpod.ru, посвященный подкастам, содержит более 450 тысяч аудиотреков и входит в число крупнейших хранилищ МР3-файлов.Основной язык для 91% сайтов Рунета — русский (Сайт считается русскоязычным, если на русском языке написано более половины его страниц.). 2% сайтов написаны на украинском, 1% — на белорусском и менее одной десятой процента — на казахском. Самый распространенный иностранный язык — английский. Он основной для 3% сайтов.*Данные о частоте слов в современном русском языке получены из Нового частотного словаря русской лексики (создан Институтом русского языка им. В. В. Виноградова РАН на основе Национального корпуса русского языка, ruscorpora.ru, dict.ruslang.ru/freq.php).
Самые частые существительные (Рунет):1. сообщение2. сайт3. год4. новость5. телефон6. тема7. форум8. поиск9. день10. цена11. компания12. работа13. товар14. пользователь15. карта16. регистрация17. игра18. комментарий19. время20. человекСамые частые существительные (Новый частотный словарь руской лексики):1. год2. человек3. время4. дело5. жизнь6. день7. рука8. работа9. слово10. место11. вопрос12. лицо13. глаз14. страна15. друг16. сторона17. дом18. случай19. ребенок20. головаСамые частые прилагательные (Рунет):1. новый2. главный3. хороший4. подробный5. большой6. последний7. мобильный8. бесплатный9. правый10. простой11. российский12. русский13. сотовый14. общий15. любой16. нужный17. высокий18. должный19. полный20. разныйСамые частые прилагательные (Новый частотный словарь руской лексики):1. новый2. хороший3. должный4. последний5. российский6. высокий7. русский8. общий9. главный10. государственный11. маленький12. любой13. полный14. молодой15. советский16. разный17. настоящий18. всякий19. военный20. иной
(По данным поиска Яндекса и Нового частотного словаря русской лексики, лето 2009)Существительные, распространенные в текстах на сайтах и в письменных бумажных текстах, совпадают очень мало. Это неудивительно: топ-20 популярных в интернете существительных наполовину состоит из интернет-терминов, которые относятся не только к языку, на котором говорят и пишут пользователи, но и к интерфейсам (форум, регистрация, комментарий, поиск и т.п.). Такие слова, как новость, тема, карта и игра, на самом деле тоже отражают специфику интернета. На многих сайтах есть раздел Новости, тема — это тема на форуме, карта — оглавление сайта, игра — это компьютерные офлайн- и онлайн-игры.Кроме того, в число распространенных в интернете слов попали коммерческие — цена, компания и товар. Они встречаются на многих сайтах, принадлежащих коммерческим компаниям, которые предлагают разного рода товары и услуги. В бумажных текстах эти слова распространены существенно меньше — например, слово товар встречается там в десять раз реже, чем в интернете, а слово цена — почти в шесть раз реже.Частотные прилагательные в языке Рунета и Новом частотном словаре русской лексики похожи гораздо больше, чем существительные. Топы глаголов также в значительной мере схожи. Только четыре слова попали в первую двадцатку сетевого рейтинга глаголов и не вошли в общий языковой рейтинг — находить, скачивать, покупать и зарегистрировать.Слова, обозначающие позитивные эмоции и чувства, в интернете встречаются в два раза чаще, чем негативные. В «бумажном» русском языке слова, обозначающие какие-либо чувства, используются в 1,8 раза чаще, однако негативных эмоций там больше, чем позитивных.Настроение пользователей интернета можно оценить не только по словам, но и по смайликам. Веселые смайлики популярнее грустных — сайтов, где есть улыбающиеся смайлики, в 2,5 раза больше, чем сайтов, где хотя бы раз появлялись грустные (Смайлики — это сочетания :), :-), :(, :-(, а также повторение трех и более круглых скобок одного типа подряд. Смайлики в виде картинок не учитывались). Самые частоупотребляемые в интернете слова, обозначающие позитивные эмоции, — это добро и любовь. В «бумажном» языке эти существительные не вошли даже в топ-50 популярных слов-эмоций.По сравнению с бумажными текстами в интернете больше пишут про регионы России и меньше — про города дальнего зарубежья.
1. Москва2. Санкт-Петербург3. Киев4. Екатеринбург5. Новгород6. Новосибирск7. Челябинск8. Самара9. Минск10. Казань11. Уфа12. Омск13. Лондон14. Ростов-на-Дону
15. Нью-Йорк
Названия российских городов-миллионников встречаются в сети в полтора раза чаще, чем в бумажных текстах. Отчасти это происходит из-за обилия профилей пользователей на различных форумах и блогохостингах. Среди прочих регистрационных данных пользователи частоуказывают город, в котором живут.Новые слова поначалу имеют несколько вариантов написания, однако рано или поздно остается один наиболее употребляемый, который становится нормой. Так уже произошло, например, с транслитерацией слова trend. Сейчас сайтов, где это слово написано как тренд, почти в десять раз больше сайтов, предпочитающих написание трэнд. С тем же, как писать слово flash, в Рунете пока нет определенности. То, к чему склоняется язык, хорошо видно по статистике поисковых запросов.Орфографических ошибок и опечаток в текстах, размещенных в интернете, не так много. Даже для тех слов, в которых часто делают ошибки, — например, педиатр (популярная ошибка — педиатор), агентство (распространенный неправильный вариант — агенство), трансцендентально (трансцедентально) — средняя доля ошибок не превышает 5—6%. Доля сайтов, содержащих ошибки в каком-либо слове, часто оказывается больше доли ошибочных написаний этого слова. Например, на семнадцать употреблений слова агентство неправильно написано только одно, но ошибка в этом слове встречается на каждом третьем сайте, рискнувшем его использовать. В масштабах Рунета даже сравнительно небольшая доля ошибок означает огромные числа. 5,78% неправильных написаний слова агентство в Рунете — это 21 миллион агенств.В некоторых случаях грамматически неправильные формы встречаются чаще, чем правильные. Например, сайтов, которые образуют множественное число от слова брелок по правилам — «брелоки», меньше, чем сайтов с «брелками». Та же ситуация и с глаголом победить. Строго по правилам, у этого глагола нет формы первого лица будущего времени. Однако сайтов, использовавших форму «победю», в три раза больше, чем тех, где выбрали грамматически правильную форму «одержу победу». Формы «побежду» и «побежу» употребляются очень редко.В том, что касается определения рода кофе, Рунет пока придерживается мужского рода. Сайтов, где есть «хороший кофе», в 12 раз больше, чем сайтов, пишущих «хорошее кофе». «Черный кофе» встречается 16 раз чаще чем «черное кофе», а «растворимый кофе» — в 19 раз чаще, чем «растворимое». Сайтов, где встречается слово брачующиеся, в пять раз больше, чем тех, где употребляется равноправная форма брачащиеся, и почти в 19 раз больше, чем тех, где есть устаревшее брачущиеся. Карате в Рунете употребляется почти в два раза чаще, чем второй вариант — каратэ. Если для карате распространено только два названия, то для другого восточного единоборства — тхэквондо или таэквондо — встречается по крайней мере десять вариантов.
1. Тхэквондо 191572. Таэквондо 174083. Тэквондо 105284. Таеквондо 79305. Тэквандо 60886. Теквандо 45047. Таэквандо 39438. Тхэквандо 37519. Теквондо 2333
10. Таеквандо 1897
По данным поиска Яндекса на осень 2009, в Рунете — около 15 миллионов сайтов. Это около 6,5% от всего интернета. Российские пользователи интернета составляют 2,2% от всех пользователей интернета — то есть на одного пользователя в Рунете приходится больше сайтов, чем в среднем в мире. Только в текстовом формате (без учета картинок, аудио- и видеофайлов) в Рунете размещено более 140 тысяч Гб данных. Информация в сети распределена неравномерно. 88% всего текста находится менее чем на одном проценте сайтов.Средний сайт Рунета состоит из 255 страниц, содержит 159 тысяч слов и 204 картинки. Большинство сайтов гораздо меньше среднего — половина сайтов в Рунете состоит всего из одной страницы. По данным Яндекса на лето 2009, в Рунете размещено по крайней мере 1,6 миллиарда уникальных изображений — это фотографии и рисунки, элементы оформления страниц, рекламные баннеры и т. п. Картинок, которые можно увидеть в Рунете, несколько больше — около 2,1 миллиарда.Топ-20 популярных в интернете существительных наполовину состоит из интернет-терминов, которые относятся не только к языку, на котором говорят и пишут пользователи, но и к интерфейсам. Слова, обозначающие позитивные эмоции и чувства, в интернете встречаются в два раза чаще, чем негативные. Самые частоупотребляемые в интернете слова, обозначающие позитивные эмоции, — это добро и любовь.Веселые смайлики популярнее грустных — сайтов, где есть улыбающиеся смайлики, в 2,5 раза больше, чем сайтов, где хотя бы раз появлялись грустные.
По сравнению с бумажными текстами в интернете больше пишут про регионы России, и меньше — про города дальнего зарубежья. Орфографических ошибок и опечаток в текстах, размещенных в интернете, не так много. Даже для тех слов, в которых часто делают ошибки (например, педиатр, агентство, трансцендентально) средняя доля ошибок не превышает 5-6%.