ТЕХНОЛОГІЇ

З 2013 року цифрова деградація забрала майже 40 відсотків веб-сторінок

Поширити:

Ви шукаєте статтю, яку читали кілька років тому, але не можете її знайти? Якщо вона була написана у 2013 році, є велика ймовірність, що вона просто зникла з інтернету. Про це свідчить нове дослідження Pew Research Centre, яке виявило, що майже 40 відсотків усіх веб-сторінок, створених у 2013 році, більше не доступні через “цифрову деградацію”.

Новий аналіз демонструє, наскільки швидкоплинним є онлайн-контент, який не можна вважати незгладимим, і наскільки швидкоплинним він є насправді. Цифровий занепад – це поступова деградація, псування або застарівання цифрової інформації з плином часу.

Згідно з результатами дослідження, 38 відсотків контенту, який існував у 2013 році, сьогодні недоступний. Розширивши сферу аналізу, дослідники виявили, що чверть усіх веб-сторінок, які існували в певний момент між 2013 і 2023 роками, зараз недоступні. У більшості випадків це сталося через те, що відповідні сторінки були видалені або вилучені з інших функціональних веб-сайтів.

У цьому контексті команда визначила “недоступну” як сторінку, яка більше не знаходиться на хост-сервері, що зазвичай призводить до появи повідомлення 404 або іншого коду помилки.

Щоб зібрати дані для аналізу, дослідники використовували випадкові вибірки трохи менше 1 мільйона веб-сторінок (близько 90 000 сторінок на рік) з архівів Common Crawl, інтернет-репозиторію, який періодично робить знімки Інтернету в тому вигляді, в якому він існував у різні часи. Вони зібрали цю інформацію за період з 2013 по 2023 рік, а потім перевірили, чи існують ці сторінки досі.

Читайте також:  Intel відключає підтримку API DirectX 12 в iGPU процесорів Haswell

Близько 25 відсотків сторінок, створених у цей період, були недоступні станом на жовтень 2023 року. Ця цифра складається з двох типів неіснуючого контенту: 16 відсотків сторінок були “індивідуально недоступними”, але знаходилися на доступних доменах кореневого рівня. Інші 9 відсотків, однак, були недоступні, оскільки весь кореневий домен більше не існує.

“Не дивно, що старіші знімки в нашій колекції мали найбільшу частку недоступних посилань”, – пояснюють автори звіту.

До кінця 2023 року 38 відсотків сторінок, зібраних у знімку 2013 року, зникли. Але навіть вміст знімка 2021 року постраждав від цього занепаду – приблизно кожна п’ята сторінка була втрачена.

Були також отримані деякі цікаві порівняльні результати для різних типів веб-сторінок. Наприклад, під час аналізу були вивчені посилання на 50 000 англомовних сторінок Вікіпедії. Виявилося, що 82 відсотки відібраних сторінок мали принаймні одне посилання, яке перенаправляло користувачів на сторінки, що не належать до Вікіпедії – однак 11 відсотків “усіх посилань на Вікіпедії” більше не доступні.

Читайте також:  Microsoft відключила протокол інсталятора програм MSIX, щоб захистити користувачів від шкідливого ПЗ

На близько 2 відсотках відібраних сторінок-джерел кожне посилання було недоступне або непрацююче, а близько 53 відсотків містили принаймні одне непрацююче посилання.

Урядові веб-сайти також виявили деякі цікавинки. Команда виявила, що близько трьох чвертей з 500 000 відібраних ними урядових веб-сторінок, як правило, містили принаймні одне посилання. Середня сторінка містила 50 посилань, але багато сторінок містили більше. Переважна більшість цих сторінок ведуть на захищені HTTP-сторінки, а 16 відсотків перенаправляють на інші сторінки.

Але близько 21% досліджених урядових сторінок містили принаймні одне непрацююче посилання. Схоже, що сторінки міських органів влади були найгіршими порушниками в цьому контексті.

Навіть сайти новин не були вільні від цієї проблеми. Дослідники виявили, що близько 94% новинних сайтів, які вони відібрали, містили принаймні одне посилання, яке відводило читачів з сайту. Середня сторінка містила близько 20 посилань, а сторінки в топ-10 відсотків мали близько 56 посилань.

Аналіз показує, що, як і на урядових веб-сайтах, переважна більшість цих посилань вела на захищені HTTP-сторінки. Близько 32% посилань на цих новинних сайтах перенаправляли користувачів на інші URL-адреси, ніж ті, що використовувалися спочатку. Близько 5 відсотків посилань на новинних сайтах зараз недоступні, а близько 23 відсотків усіх сторінок мали принаймні одне непрацююче посилання.

Читайте також:  Запуск Huawei WATCH Ultimate відбудеться на презентації 23 березня

Нарешті, у Twitter (тепер X) дослідники виявили, що з 5 мільйонів твітів, опублікованих між березнем 2013 і 2023 роками, 18 відсотків більше не доступні.

“У більшості випадків це сталося через те, що акаунт, з якого було розміщено твіт, став приватним, був призупинений або повністю видалений”, – пояснюють дослідники. “Що стосується решти твітів, то акаунт, який опублікував твіт, все ще був видимим на сайті, але окремий твіт був видалений”.

Вони також виявили, що твіти були особливо схильні до зникнення або видалення, якщо вони були написані певними мовами. Наприклад, половина твітів турецькою мовою і менша частка твітів арабською мовою більше не були доступні.

Загалом, більшість “твітів, які видаляються з сайту, мають тенденцію зникати незабаром після публікації”.

+1
0
+1
0
+1
0
+1
0
+1
0
+1
0