Рубріки: Новини

Архівувати дані все складніше: HDD подорожчали, сайти блокують пошукових ботів

Олександр Остапенко

Організації, які займаються архівуванням інтернет-даних, опинилися під подвійним тиском: ціни на накопичувачі злетіли через попит з боку індустрії штучного інтелекту, а медіасайти масово блокують пошукових ботів-краулерів, побоюючись використання свого контенту для навчання LLM-моделей. Про це пише Tom’s Hardware.

Диски є, але не для архівістів

Жорсткі диски ємністю 28–30 ТБ, які найкраще підходять для архівування, або просто відсутні у продажу, або коштують неприйнятно дорого. Для Internet Archive підтримання інфраструктури стало «дуже реальною проблемою, яка коштує часу і грошей», — розповів засновник організації Брюстер Кале виданню 404 Media.

Проблема торкнулася не лише великих компаній. Учасники Reddit-спільноти DataHoarders почали публікувати тривожні дописи про те, що повністю припинили архівування — очікуючи, поки ціни стабілізуються. Знайти великий накопичувач за рекомендованою роздрібною ціною стало майже неможливо.

Організація End of Term Archive, яка спеціалізується на збереженні архівних версій урядових сайтів, поки сподівається, що ситуація покращиться до моменту, коли їм знадобиться оновлення обладнання.

Медіа блокують не тих

Паралельно Internet Archive зіткнувся з іншою загрозою. Дедалі більше медіаорганізацій обмежують можливість сканувати їхній контент — побоюючись, що компанії-розробники штучного інтелекту обходять авторські обмеження, звертаючись до збережених копій сторінок в архіві.

За даними Wired, 23 великі новинні організації, в тому числі USA Today та The New York Times, вже заблокували бот Internet Archive. У серпні 2025 року до них приєднався і Reddit.

Речник The New York Times Грем Джеймс пояснив позицію видання: контент Times на Internet Archive використовується ШІ-компаніями з порушенням авторського права для прямої конкуренції з газетою.

Ситуацію ускладнює парадокс: директор Internet Archive Марк Ґрем зазначив, що видання продовжують спиратися на матеріали архіву у власних репортажах — і водночас блокують його доступ до свого контенту. Він назвав Internet Archive «супутніми втратами» у ширшому конфлікті між видавцями й ШІ-компаніями.

Що під загрозою

Internet Archive вже перевищив позначку в один трильйон збережених сторінок — але подальше зростання архіву стає дедалі дорожчим і складнішим. Дорогі диски, заблоковані боти, медіа, які закривають свій контент від ШІ-скрапінгу, — усе це разом загрожує тому, що інтернет майбутнього може виявитися значно менш задокументованим, ніж інтернет минулого.

Нагадаємо, співзасновник Anthropic стверджує, що системи штучного інтелекту ось-ось почнуть створювати самі себе.

Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn

Останні статті

З відеокартою Nvidia RTX 5090 можна зламати 60% паролів менш ніж за годину

60% паролів, захищених алгоритмом MD5, можна зламати менш ніж за годину за допомогою однієї відеокарти…

08.05.2026

OpenAI додає Codex у Chrome: тепер це однозначно головний конкурент Claude Code

Компанія OpenAI офіційно випустила розширення Codex для браузера Google Chrome, що стало важливим кроком у…

08.05.2026

КНУ імені Шевченка зняв заборону на Telegram: що змусило ректора змінити рішення

Київський національний університет імені Тараса Шевченка розблокував Telegram у своїй внутрішній мережі. Ректор підписав відповідний…

08.05.2026

Хто в Україні вміє впроваджувати CRM: з’явився перший незалежний рейтинг інтеграторів

Кожна п'ята українська компанія, яка використовує CRM, досі робить це за допомогою російського софту. А…

08.05.2026

40% розробників C++ використовують штучний інтелект, але довіра до нього залишається низькою — опитування

Щорічне опитування Standard C++ Foundation зафіксувало стрімке зростання використання штучного інтелекту серед C++-розробників — однак…

08.05.2026

ChatGPT отримав «червону кнопку», яка напише вашим друзям

Компанія OpenAI представила нову функцію безпеки для ChatGPT під назвою «Довірена особа» (Trusted Contact). Цей…

08.05.2026