Здравый смысл нам подсказывает, что 70-80% веб-сайтов используют контент на английском языке, однако лингвистическое разделение Интернета крайне тяжело контролировать. Многие ранние исследования проводились на основании случайной подборки страниц, но этот метод утрачивает свою достоверность с появлением сайтов социальных сетей (таких как Facebook), которые могут охватывать большое количество языков.
Другие попытки классификации языкового разделения всемирной паутины основываются на подсчете того, сколько раз определенное уникальное слово на разных языках используется в содержании веб-страниц. Этот метод подсчитывает, сколько раз определенное слово встречалось в английском, французском или китайском варианте по всему Интернету.
Этот метод был впервые использован в 90-х гг. и по его результатам 80% веб-сайтов использовали контент на английском языке. Последующие исследования с использованием такого же метода продемонстрировали последовательное сокращение количества веб-ресурсов с контентом на английском языке. В 2005 г. всего лишь 45% содержания веб-сайтов предположительно было на английском языке, а по сегодняшним оценкам, объем англоязычного контента составляет менее 40%. Учитывая, что количество носителей английского языка составляет всего лишь 5% всего населения в мире, а количество людей, владеющих английским языком, составляет около 20%, должен существовать способ, который позволит более точно отражать лингвистическое разнообразие мира в сети Интернет.
Существует определенная тенденция, что количество Интернет-пользователей растет гораздо быстрее в странах, в которых английский язык не является основным. В 2010 г. всего лишь чуть больше четверти Интернет-пользователей составляли носители английского языка – для сравнения, в 1996 г. их количество превышало 80%. Существует несколько факторов, которые привели к таким изменениям в языковом профиле веб-ресурсов. Вероятно, увеличение объемов пользовательского контента сыграло свою роль в расширении языкового разнообразия. Пользователи готовы к взаимодействию с сайтами, написанными на других языках, но при создании своего собственного веб-контента они, в основном, используют свой родной язык.
Резкое увеличение количества Интернет-пользователей, которые являются носителями таких языков, как арабский или китайский, также означает то, что английский язык уже не будет так явственно преобладать, как раньше. Еще многое нужно сделать для того, чтобы вывести развивающиеся рынки в Интернет и многие их представители будут говорить не на английском языке. Они составляют огромную лингвистическую группу, которая присоединяется к всемирной паутине и приносит с собой собственные языковые потребности.
Совершенно ясно, что еще многое предстоит сделать, прежде чем глобальное языковое разнообразие получит свое правильное отражение в сети Интернет, ведь даже некоторые наиболее распространенные языки в настоящее время еще не приспособлены для использования онлайн. Такие распространенные языки, как арабский язык или хинди, используются только в небольшой части Интернет-контента. Всего лишь около четверти носителей малайского языка имеют доступ к сети Интернет, несмотря на то, что этот язык входит в число наиболее распространенных языков.
Как увеличить количество языков, используемых в Интернете?
Так что же нужно для того, чтобы произошли перемены? Лингвистическое разнообразие, вероятно, требует чего-то большего, чем просто доступ к сети Интернет для носителей таких языков, как малайский. Также необходимо отойти от современной ситуации, в которой разработка контента является централизованной в географическом и лингвистическом отношении.
Поскольку разработка локализованного контента является дорогостоящей и имеет определенный риск, требуется появление новой модели для поиска способов распространения и материально-денежной оценки нового многообразия контента.
Поисковую технологию также необходимо адаптировать к новому лингвистическому профилю сети Интернет. Поисковым системам уже достаточно сложно регистрировать социальные сети в полном объеме, а это значит, что часть веб-контента остается невидимой. Как правило, выбирая содержимое, они отдают предпочтение англоязычному контенту – частично, потому что это более выгодно с точки зрения рекламы. Это может стать еще одним испытанием для новых языковых групп, разрабатывающих контент на своем родном языке.
Некоторые более крупные международные платформы прилагают усилия для расширения своих предложений, чтобы охватить большее количество языков. Компания Google активно привлекает носителей индийских языков, в частности – хинди, надеясь захватить этот зарождающийся рынок на ранней стадии. Такое стремление к сотрудничеству с новыми языковыми группами оправдывает себя лишь в случае больших международных рынков. По оценкам Google, сервисы их компании охватывают около 500 млн. Интернет-пользователей в Индии, поэтому очевидно, что ориентация на самые распространенные индийские языки является стоящей инвестицией.
Социальная сеть Facebook также увеличила количество используемых языков – в настоящее время, это 70 языков из 7000 языков мира. С целью расширения языковых опций компания открыла вакансии для переводчиков. В теории, это позволяет быстро добавить ряд новых языков, но на практике количество новых языков ограничено. Дальнейшие планы компании по расширению языковых предложений в будущем остаются пока неясными.
В любом случае, расширение и привлечение новых языков может стать не самым лучшим решением для существующих компаний. По утверждению компании Seznam, национальной поисковой системы в Чехии, именно ориентация на локальные знания делает возможным их успешную конкурентоспособность. Seznam предлагает важные для своих локальных пользователей элементы, такие как ежедневно обновляемые локальные карты, – то, что их международные конкуренты просто не могут предложить для рынка такого размера. Компания Seznam насчитывает 1000 сотрудников, охватывая, таким образом, рыночный сегмент, который является достаточно большим по меркам национального оператора, но в то же время, недостаточно большим для выхода на международный уровень.
До тех пор, пока не найдутся новые способы разработки, распространения и материально-денежной оценки контента для небольших языковых групп, это довольно рискованное мероприятие.