Організації, які займаються архівуванням інтернет-даних, опинилися під подвійним тиском: ціни на накопичувачі злетіли через попит з боку індустрії штучного інтелекту, а медіасайти масово блокують пошукових ботів-краулерів, побоюючись використання свого контенту для навчання LLM-моделей. Про це пише Tom’s Hardware.
Жорсткі диски ємністю 28–30 ТБ, які найкраще підходять для архівування, або просто відсутні у продажу, або коштують неприйнятно дорого. Для Internet Archive підтримання інфраструктури стало «дуже реальною проблемою, яка коштує часу і грошей», — розповів засновник організації Брюстер Кале виданню 404 Media.
Проблема торкнулася не лише великих компаній. Учасники Reddit-спільноти DataHoarders почали публікувати тривожні дописи про те, що повністю припинили архівування — очікуючи, поки ціни стабілізуються. Знайти великий накопичувач за рекомендованою роздрібною ціною стало майже неможливо.
Організація End of Term Archive, яка спеціалізується на збереженні архівних версій урядових сайтів, поки сподівається, що ситуація покращиться до моменту, коли їм знадобиться оновлення обладнання.
Паралельно Internet Archive зіткнувся з іншою загрозою. Дедалі більше медіаорганізацій обмежують можливість сканувати їхній контент — побоюючись, що компанії-розробники штучного інтелекту обходять авторські обмеження, звертаючись до збережених копій сторінок в архіві.
За даними Wired, 23 великі новинні організації, в тому числі USA Today та The New York Times, вже заблокували бот Internet Archive. У серпні 2025 року до них приєднався і Reddit.
Речник The New York Times Грем Джеймс пояснив позицію видання: контент Times на Internet Archive використовується ШІ-компаніями з порушенням авторського права для прямої конкуренції з газетою.
Ситуацію ускладнює парадокс: директор Internet Archive Марк Ґрем зазначив, що видання продовжують спиратися на матеріали архіву у власних репортажах — і водночас блокують його доступ до свого контенту. Він назвав Internet Archive «супутніми втратами» у ширшому конфлікті між видавцями й ШІ-компаніями.
Internet Archive вже перевищив позначку в один трильйон збережених сторінок — але подальше зростання архіву стає дедалі дорожчим і складнішим. Дорогі диски, заблоковані боти, медіа, які закривають свій контент від ШІ-скрапінгу, — усе це разом загрожує тому, що інтернет майбутнього може виявитися значно менш задокументованим, ніж інтернет минулого.
Нагадаємо, співзасновник Anthropic стверджує, що системи штучного інтелекту ось-ось почнуть створювати самі себе.
Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn
60% паролів, захищених алгоритмом MD5, можна зламати менш ніж за годину за допомогою однієї відеокарти…
Компанія OpenAI офіційно випустила розширення Codex для браузера Google Chrome, що стало важливим кроком у…
Київський національний університет імені Тараса Шевченка розблокував Telegram у своїй внутрішній мережі. Ректор підписав відповідний…
Кожна п'ята українська компанія, яка використовує CRM, досі робить це за допомогою російського софту. А…
Щорічне опитування Standard C++ Foundation зафіксувало стрімке зростання використання штучного інтелекту серед C++-розробників — однак…
Компанія OpenAI представила нову функцію безпеки для ChatGPT під назвою «Довірена особа» (Trusted Contact). Цей…