Архівувати дані все складніше: HDD подорожчали, сайти блокують пошукових ботів

Автор новин

Організації, які займаються архівуванням інтернет-даних, опинилися під подвійним тиском: ціни на накопичувачі злетіли через попит з боку індустрії штучного інтелекту, а медіасайти масово блокують пошукових ботів-краулерів, побоюючись використання свого контенту для навчання LLM-моделей. Про це пише Tom’s Hardware.

Архівувати дані все складніше: HDD подорожчали, сайти блокують пошукових ботів

Диски є, але не для архівістів

Жорсткі диски ємністю 28–30 ТБ, які найкраще підходять для архівування, або просто відсутні у продажу, або коштують неприйнятно дорого. Для Internet Archive підтримання інфраструктури стало «дуже реальною проблемою, яка коштує часу і грошей», — розповів засновник організації Брюстер Кале виданню 404 Media.

Проблема торкнулася не лише великих компаній. Учасники Reddit-спільноти DataHoarders почали публікувати тривожні дописи про те, що повністю припинили архівування — очікуючи, поки ціни стабілізуються. Знайти великий накопичувач за рекомендованою роздрібною ціною стало майже неможливо.

Організація End of Term Archive, яка спеціалізується на збереженні архівних версій урядових сайтів, поки сподівається, що ситуація покращиться до моменту, коли їм знадобиться оновлення обладнання.

Медіа блокують не тих

Паралельно Internet Archive зіткнувся з іншою загрозою. Дедалі більше медіаорганізацій обмежують можливість сканувати їхній контент — побоюючись, що компанії-розробники штучного інтелекту обходять авторські обмеження, звертаючись до збережених копій сторінок в архіві.

За даними Wired, 23 великі новинні організації, в тому числі USA Today та The New York Times, вже заблокували бот Internet Archive. У серпні 2025 року до них приєднався і Reddit.

Речник The New York Times Грем Джеймс пояснив позицію видання: контент Times на Internet Archive використовується ШІ-компаніями з порушенням авторського права для прямої конкуренції з газетою.

Ситуацію ускладнює парадокс: директор Internet Archive Марк Ґрем зазначив, що видання продовжують спиратися на матеріали архіву у власних репортажах — і водночас блокують його доступ до свого контенту. Він назвав Internet Archive «супутніми втратами» у ширшому конфлікті між видавцями й ШІ-компаніями.

Що під загрозою

Internet Archive вже перевищив позначку в один трильйон збережених сторінок — але подальше зростання архіву стає дедалі дорожчим і складнішим. Дорогі диски, заблоковані боти, медіа, які закривають свій контент від ШІ-скрапінгу, — усе це разом загрожує тому, що інтернет майбутнього може виявитися значно менш задокументованим, ніж інтернет минулого.

Нагадаємо, співзасновник Anthropic стверджує, що системи штучного інтелекту ось-ось почнуть створювати самі себе.

Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn