Архив Интернета

01.11.2022


Архив Интернета (АИ) (англ. Internet Archive) — некоммерческая организация, основанная в 1996 году в Сан-Франциско американским программистом Брюстером Кейлом. Главной заявленной целью Архива является предоставление всеобщего доступа к накопленной в Интернете информации. Коллекция АИ состоит из множества подколлекций архивированных веб-сайтов, оцифрованных книг, аудио- и видеофайлов, игр, программного обеспечения.

К крупнейшим проектам Архива относят запущенный в 2001 году сервис Wayback Machine, который архивирует и предоставляет доступ к большей части «открытого» интернета. Пользователи Wayback Machine могут отследить происходящие на выбранных сайтах изменения и сравнивать разные версии правок. Другой крупной инициативой АИ является Open Library — открытая онлайн-библиотека, через которую пользователи могут брать на 2 недели оцифрованные версии книг. Также по инициативе Архива был создан сервис Archive It — служба веб-архивирования, помогающая организациям и частным лицам собирать, создавать и сохранять коллекции цифрового контента. На начало мая 2022 года коллекция Архива Интернета состояла из более чем 35 млн книг, 7,9 млн фильмов, видео и телепередач, 842 тыс. программ, 14 млн аудиофайлов, 4 млн изображений, 2,4 млн телеклипов, 237 тыс. концертов и более 682 млрд веб-страниц в Wayback Machine.

Для долгосрочного хранения данных «Архив» использует систему зеркальных сайтов, расположенных в географически отдалённых друг от друга местах. Копии Wayback Machine существуют в Сан-Франциско, Ричмонде, Александрии, Амстердаме. Для эффективного хранения файлов «Архив» использует формат файла (ARC), позволяющий сохранять файлы без потерь при архивировании.

История

Создание

Главную роль в создании «Архива Интернета» сыграл выпускник Массачусетского технологического института Брюстер Кейл. Во время учёбы Кейл и его одногруппники имели доступ к прототипу интернета — сети ARPANET. Однажды они решили посмотреть, что произойдёт, если поместить отдельные сообщества (на тот момент — небольшие списки рассылок и группы Usenet) в общее виртуальное пространство — единый список рассылки. Как позже вспоминал программист: «Это был хаос, анархия и дезинформация — это было ужасно!». Однако именно тогда Кейл осознал потенциал сети в предоставлении людям из разных учреждений возможности общаться друг с другом без задержек и трений. Благодаря экспериментам с ARPANET у программиста появилась идея создать первое цифровое хранилище.

Начиная с 1980-х годов Кейл участвовал в создании компании по производству мини-суперкомпьютеров Thinking Machines Corporation, а в 1989 году программист основал первую сетевую информационную поисковую систему WAIS и одноимённую компанию, которую он продал в 1995 году America Online за $15 млн. Впоследствии WAIS стала прообразом современных поисковых систем и одной из первых программ, индексирующих большое количество информации. Одновременно с этим Брюстер переехал из Бостона в Сан-Франциско — город, который в то время только начал становиться центром Кремниевой долины.

В этот период Кейл заинтересовался вопросом архивирования всего интернета. Для этих целей он создал в 1996 году две взаимосвязанные организации — НКО Internet Archive и коммерческую систему веб-архивирования Alexa Internet, которая была создана совместно с Брюсом Гиллиатом и получила название в честь Александрийской библиотеки. Задачей Alexa Internet стало финансирование некоммерческого проекта за счёт средств, вырученных от веб-архивирования. Помимо этого, все архивированные через Alexa данные также автоматически сохранялись в коллекцию. Начальные инвестиции в проект Alexa Internet составили около $1 млн. Уже спустя год после создания «Архив Интернета» и Alexa совместно разработали браузерный плагин — программа автоматически определяла и сохраняла «ценные» веб-страницы, ранжируя их по количеству посещений и перекрёстных ссылок и кликов. Цикл создания и архивирования страниц составлял восемь недель, после чего процесс сканирования запускали заново. Встроенная в браузер панель инструментов Alexa помогала пользователям в навигации по интернету и одновременно занималась его каталогизацией, собирая метаданные о том, как страницы связаны друг с другом. Первое время для хранения данных использовали магнитную ленту — несмотря на то, что только появившиеся дисковые хранилища выигрывали в вопросе экономии пространства и удобства, ленты были примерно в 10 раз дешевле.

Целью «Архива Интернета» стала борьба с вымиранием ссылок — большинство создаваемых веб-страниц не были долговечными. Все собранные данные сохранялись в коллекцию «Архива Интернета». Так, 72 % опубликованных в 1998 году ссылок стали «мёртвыми» к 2021 году. Чтобы продемонстрировать важность сканирования и сохранения копий веб-страниц, «Архив» инициировал совместный проект со Смитсоновским институтом в Вашингтоне по сбору скриншотов веб-сайтов всех кандидатов в президенты 1996 года. Впоследствии эти данные были включены в архив института о партиях и кандидатах, собирающий данные по политическим партиям США и всем кандидатам в президенты.

1997—1999-й год

В 1998 году Alexa Internet передала Библиотеке Конгресса 2 терабайта заархивированного за два года контента или 500 000 веб-сайтов. Тогда Брюстер Кейл упомянул, что надеется вдохновить Библиотеку Конгресса и другие исследовательские библиотеки сохранять знания не только в печатном, но и в онлайн виде. В 1998—1999 годах «Архив Интернета» и Alexa заключили контракт с Microsoft и Netscape Communications на включение своего программного обеспечения в браузеры Internet Explorer и Netscape Navigator. Соглашения позволили значительно расширить инфраструктуру «Архива» — Alexa была внедрена на 90 % персональных компьютеров того времени. К концу 1998 года руководство «Архива» решило перейти с магнитной ленты на жёсткие диски. В 1999 году Брюс Кейл получил предложение от компании Amazon продать ей коммерческий успешный Alexa Internet за $250 млн, на что создатель ответил согласием. После покупки Alexa по-прежнему продолжила отправку данных в «Архив Интернета». В этом же году Энди Джуэл создал новый веб-краулер, позволяющий параллельно совершать сразу несколько сканирований и сохранять результаты в формате ARC. В этом же году НКО внедрило разработанный Джуэлом новый краулер, который позволил собирать не только веб-страницы, но и другие виды данных, например, анимацию. Благодаря партнёрству с Риком Прелингером из Prelinger Archives был реализован проект по оцифровке 1000 фильмов (общей стоимостью в $160 000) и по архивированию телевизионных новостных трансляций. В 2005 году Библиотека Конгресса приобрела Prelinger Archives, доступ к материалам по-прежнему осуществляется через «Архив».

2000—2010 годы

В период за 2000—2001 год размер архива увеличился втрое и составил около 40 терабайт. Одновременно с этим перед руководством встал вопрос о предоставлении доступа к собранной коллекции. Отдельные данные были доступны широкой публике, но требовали от пользователя знания Unix. Чтобы открыть доступ к информации, программисты Alexa создали Wayback Machine — онлайн-сервис, через который пользователи могли осуществить поиск по вводимому URL-адресу. Сервис был запущен 24 октября 2001 года и предлагал доступ к более чем 10 млрд заархивированных веб-страниц и 100 ТБ данных. В то время данные хранились на серверах Hewlett-Packard и uslab.com под управлением операционных систем FreeBSD и Linux. На каждом сервере было около 512 МБ оперативной памяти и чуть более 300 ГБ на жёстких дисках. К декабрю 2014 года руководство Wayback Machine сообщило, что сохранило 435 млрд веб-страниц по всему миру. С технической точки зрения WM не является архивом, а скорее общедоступным интерфейсом к ограниченному подмножеству всех хранилищ.

В связи с президентскими выборами в США 2000 года «Архив Интернета» инициировал совместный с Библиотекой Конгресса проект по сбору информации о политических кампаниях кандидатов. Другим крупным проектом того периода стал «Архив 11 сентября», посвященный одноимённым событиям 2001 года. Работая с Библиотекой Конгресса, «Архив» собрал изображения с более 30 000 избранных веб-сайтов в период по 1 декабря 2001 года включительно, а также сотни часов телетрансляций.

В 2002 году «Архив» реализовал сразу несколько крупных проектов, значительно расширивших его коллекцию. Первым и самым крупным из них стал зеркальный сайт библиотеки в городе Александрия. Всего в Египет было отправлено серверов с более чем 100 ТБ данных, общей стоимостью около $5 млн. Также «Архив Интернета» передал в Библиотеку Александрина 10 млрд веб-страниц, собранных с 1996 по 2001 год, 2000 часов записей передач египетского и американского телевидения и 1000 старых фильмов.

Летом 2002 года «Архив Интернета» сотрудничал с центром Карнеги-Меллона в проекте «Миллион книг» (MBP) по оцифровке более одного миллиона книг и размещению их для бесплатного чтения в интернете. Проект осуществляли при полноправном участии других американских университетов и цифровых собраний Индии, Китая, Египта. Деньги на MBP выделили Национальный научный фонд США ($3,63 млн), правительство Индии (25 млн), а также Министерство образования КНР (8,46 млн). В свою очередь, «Архив Интернета» предоставил оборудование, персонал и денежные средства для оцифровки необходимых документов. Впоследствии собранная коллекция была доступна через зеркальные сайты Индии, Китая, порталов Университета Карнеги-Меллона и «Архива Интернета». В декабре 2004 года АИ объявил о новом сотрудничестве с несколькими международными библиотеками по помещению оцифрованных книг в архивы с открытым доступом. Вторым крупным проектом этого периода стал «‎Букбомбиль»‎ — передвижная библиотека, по желанию печатающая работы из коллекции архива. Букмобиль передвигался по Сан-Франциско и, по заказу пользователей, мог печатать около 20 страниц в минуту, после чего волонтёры проекта собирали их вручную, помещали в обложку и переплетали с помощью нагревающего клей устройства, нанесённого на корешок страниц. Для обрезки книги использовали гильотинный резак для бумаги.

В 2003 году «Архив» продолжил сотрудничать с национальными библиотеками. В июле АИ принял участие в создании International Internet Preservation Consortium — группы из 12 национальных библиотек США, согласившихся объединиться для разработки стандартов, инструментов и практик по приобретению, сохранению и созданию доступного знания и информации из интернета. Для достижения этой цели консорциум собирает интернет-контент со всего мира, таким образом, чтобы его можно было заархивировать и защитить, а также содействует разработке и использованию общих инструментов, методов и способов поощрения развития национальных библиотек. В этом же году «Архив Интернета» запустил Heritrix — веб-краулер с открытым исходным кодом на основе Java, который впоследствии был внедрён многими учреждениями по всему миру.

В 2004 году «Архив Интернета» начал перенос данных на оборудование третьего поколения — PetaBox. PetaBox основан на операционной системе Linux и представляет RAID-хранилище по цене примерно $2000 за терабайт или $2 млн за петабайт. Первым новое оборудование установили в Амстердамском отделении «Архива» — EU Web archive, которое собирает документы в странах Европейского союза и также служит зеркалом основной коллекции.

«Архив Интернета» ставит перед собой цель предоставить универсальный доступ ко всему человеческому знанию и стать масштабной интернет-библиотекой. В июне 2007 года штат Калифорния присвоил «Архиву Интернета» статус библиотеки, таким образом сделав его доступным для федерального финансирования и включив его в сеть организаций, занимающихся сохранением открытого доступа к информации.

В начале 2000-х годов руководство Архива выкупило старую христианскую церковь в Сан-Франциско и переоборудовало её под библиотеку. На 2009-й в организации было задействовано меньше пяти сотрудников, занятых эксплуатацией и техническим обслуживанием сайтов.

2010—2020-е

К 2012 году коллекция «Архива» увеличилась до 10 петабайт, с более чем 1,5 млн аудиофайлов и более миллиона видео в открытом доступе. Уже к 2014-му «Архив» обслуживал от двух до трёх млн посетителей в день, а коллекция составляла более 7 млн текстов, 2,1 млн аудиозаписей и 1,8 млн видео. В 2016 году «Архив» отпраздновал 20-летие со дня основания. К этому моменту в коллекции архива было 370 млн веб-сайтов и 273 млрд веб-страниц.

В 2013 году в офисе «Архива» произошёл пожар, уничтоживший часть оборудования, однако коллекция не пострадала. В этом же году, в ответ на разоблачения Эдварда Сноудена Агентства национальной безопасности, «Архив Интернета» ввёл шифрование веб-трафика читателей.

После победы Дональда Трампа на президентских выборах США 2016 года «Архив» принял решение создать копию своей коллекции в Канаде на тот случай, если Трамп решит ужесточить закон о цензуре или закон о клевете — Брюстер Кейл в своём блоге призвал сторонников финансово помочь в закупке необходимого оборудования, поскольку переезд будет стоить несколько миллионов долларов.

В 2019 году Google заявил, что вскоре удалит информацию закрывшейся социальной сети Google+, однако «Архив Интернета» и Archive Team подписали соглашение о сохранении публичных постов на своих платформах — только за первые четыре недели архивации было собрано 1,56 петабайта данных.

В 2018—2019 годах «Архив» осуществил ряд совместных проектов с Википедией. В 2018 году «Архив» заменил ряд мёртвых ссылок в энциклопедии на те, которые уже были архивированы в Wayback Machine — специальный бот вычислял мёртвые ссылки, впоследствии копируя и обновляя их, ссылаясь на архивированные копии. За первый год проекта было восстановлена работоспособность 9 млн ссылок. В 2019 году «Архив» инициировал проект по улучшению работы Википедии — портал предоставлял предпросмотр книг, на которые ссылались в статьях. Для этого пользователи могли кликнуть на название книги и посмотреть двухстраничный материал. В первый год существования сервиса «Архив» превратил 130 000 ссылок в статьях энциклопедии в прямые ссылки на 50 000 книг, которые организация отсканировала и сделала доступными для широкой публики. В конечном итоге АИ надеется позволить пользователям просматривать и брать взаймы все книги, цитируемые Википедией. Чтобы сервис корректно изображал цитируемый материал пользователям энциклопедии необходимо правильно оформлять цитирование, с указанием номеров страниц.

В 2020 году «Архив Интернета» запустил кооперацию с Brave — теперь браузер может автоматически определять недоступность веб-страницы и взамен предлагать резервную копию через сервис Wayback Machine. Функция доступна для ошибок: 404, 408, 410, 451, 500, 502, 503, 504, 509, 520, 521, 523, 524, 525 и 526. В этом же году была объявлена кооперация с компанией Cloudflare, предлагающей функцию Always On, которая кэширует статические версии сайтов. Партнёрство позволило Wayback Machine находить ещё больше веб-сайтов для сканирования.

Пандемия COVID-19 и борьба с дезинформацией

«Архив Интернета» активно выступает за борьбу с дезинформацией. В 2019 году организация вместе с Public Knowledge, Фондом Викимедиа, Samuelson Law, Technology and Public Policy Clinic провели конференцию для обмена опытом по практикам борьбы с заведомо ложной информацией. С началом пандемии COVID-19 в марте 2020 года сторонники конспиративных теорий использовали сохранённые порталом скриншоты для распространения ложной информации о коронавирусе. Например, в Medium была опубликована статья, в которой утверждалось, что от COVID-19 в Китае скончалось 21 млн человек. После того как эту статью начали широко распространять в Facebook, социальная сеть заблокировала ссылку. Однако статья сохранилась в «Архиве» и пользователи начали распространять её через Wayback Machine. В качестве контрмер в ноябре 2020 года «Архив Интернета» внедрил в Wayback Machine инструменты проверки информации на достоверность. При открытии заархивированной версии сайта Wayback Machine предоставляет пользователям сведения о причине её удаления в виде жёлтого баннера вверху экрана. При наличии подозрений, что веб-страница задействована в кампании по дезинформации, Wayback Machine предоставляет данные об организации, проводившей проверку на достоверность, а также ссылку на её отчёт. Сервис проверки фактов позволяет пользователям лучше понять причины удаления или изменения определённых страниц в какой-то момент. В число участников проверки фактов, представляемых на Wayback Machine, входят FactCheck.org, PolitiFact, Graphika, Stanford Internet Observatory и другие. «Архив Интернета» объяснил причины добавления проверки фактов на эти страницы, заявив: «Мы пытаемся сохранить нашу цифровую историю, но признаём проблемы, связанные с предоставлением доступа к ложной и вводящей в заблуждение информации, поступающей из разных источников».

Хранение

Во второй половине 1990-х годов решения для хранения данных были дорогостоящими. Для решения этой проблемы «Архив Интернета» в первом поколении инфраструктуры использовал магнитные ленты. В 2004 году «Архив» разработал недорогую и мощную систему хранения больших объёмов данных — PetaBox, вмещающую один петабайт или миллион гигабайт данных. Для долгосрочного хранения «Архив» использует систему зеркальных сайтов, расположенных в географически отдалённых друг от друга местах. Копии Wayback Machine существуют в Сан-Франциско, Ричмонде, Александрии, Амстердаме. Файлы сохраняются в формате (ARC). Каждый документ формата ARC размером около 100 мб и содержит несколько файлов, полученных во время сканирования. Каждый вложенный элемент содержит метаданных о файле и его поиске: имя файла (его URL), его размер, тип содержимого, дату и время извлечения и название организации, которая его получила. Из ценовых соображений «Архив» хранит данные на дисках ATA, расположенных в pizza box form factor, вмещающих четыре диска, из которых один является загрузочным диском ОС Linux, а другие хранят данные настроенные под JBOD. В каждой стойке действуют 40 узлов хранения. В конце 2000-х только кластер Сан-Франциско вмещал около 36 стоек.

Веб-архивирование

Коллекция Архива состоит из множества подколлекций, созданных различными организациями, каждая из которых имеет разный подход к веб-архивированию. Некоторые данные напрямую управляются «Архивом», а другие — многочисленными партнёрами организации. Первые годы основным источником получения регулярных данных был веб-краулер Alexa Internet. Однако с увеличением объёма обрабатываемого трафика руководство НКО осознало необходимость внедрения масштабного и легко настраиваемого поискового робота. Но существовавшие на рынке программы не обладали достаточной мощностью и возможностями для широкого и глубокого сканирования интернета. Принципиальным моментом была открытость программного обеспечения, что способствовало бы развитию кооперации между учреждениями, заинтересованными в архивировании интернета. В первой половине 2003 года «Архив» начал работу над разработкой нового поискового робота с открытым исходным кодом под названием Heritrix. Краулер был написан на основе Java, в его разработке принимали участие Международный консорциум по сохранению Интернета и другие партнёрские библиотеки и учреждения. К Heritrix выдвигались те же требования, что и к краулеру Alexa Internet — робот должен подчиняться всем инструкциям по сканированию, заложенным в файл robots.txt сайта, и избегать агрессивного архивирования, которое может затруднить работу портала. Помимо этого, все захваченные сканером файлы должны объединяться в более крупные файлы для простоты управления и доступа. Сканер начинает фиксировать страницы, начиная с уже известных URL-адресов и далее передвигается по ссылкам внутри каждого сайта. Робот анализирует и переходит по встроенным ссылкам и затем добавляет все URL-адреса в список файлов для извлечения. Затем он повторяет этот процесс со следующими ссылками и проверяет, чтобы все сохранённые сайты были «захвачены». Heritrix обладает рядом ограничений — он не может сканировать глубокую сеть или какие-либо материалы в базах данных или на страницах, требующих аутентификацию для доступа. Робот также не будет сканировать защищённые паролем сайты и будет подчиняться исключениям, описанным в robot.txt. Также сканирование с большими трудностями обрабатывает элементы JavaScript, потоковое мультимедиа, карты изображений.

Alexa Internet использует собственные алгоритмы для сканирования сети, чаще всего анализируя сайты по статистике посещения и количеству ведущих на них ссылок. Поэтому если пользователи хотят отдельно сохранить собственный сайт, они могут сохранить страницу через специальную панель инструментов, внедрённую в Alexa. Начиная с 2010 года «Архив Интернета» выполняет Worldwide Web Crawling по глобальной сети, собирая веб-элементы, страницы, сайты и части сайтов по всему интернету. С марта по декабрь 2011 года Worldwide Web Crawling захватил 2,7 млрд снимков и 2,3 млрд уникальных URL-адресов с 29 млн веб-сайтами. Каждое сканирование начинается со списка определённых URL-адресов, известных как «списки исходных адресов», а также подчиняется отдельному алгоритму, которое определяет глубину сканирования. Большинство сайтов будут захвачены только один, однако отдельные порталы (такие как новостные сайты) могут быть заархивированы чаще за счёт других обходов.

В 2013 году «Архив Интернета» совместно с Википедией и WordPress инициировал программу Archive No More 404, постоянно мониторящую порталы на предмет мёртвых ссылок. Впоследствии к программе присоединился GDELT. В рамках этого проекта в 2016 году «Архив» вместе с Mozilla Firefox создал плагин, позволяющий пользователям просматривать «мёртвые» страницы, если они были заархивированы. Подобное сотрудничество значительно расширило коллекцию статьями и материалами о текущих событиях. Также в «Архиве» сохраняются данные о веб-страницах, отсканированных Фондом Альфреда Слоуна и Alexa, NARA и Internet Memory Foundation, реестрами DNS, содержащими более 2,5 млрд записей с 2013 года. Также многие специализированные архивы сохраняют в коллекцию «Архива Интернета» окончательные скриншоты своих страниц. Например, к ним относят GeoCities и Wretch.

Обходы могут быть нацелены как на единовременный «захват» сайта, чтобы гарантировать сохранение хотя бы одной копии портала, так и предназначаться для частого повторного сканирования небольшого подмножества выбранных вручную сайтов с регулярным интервалом — частота сканирования напрямую зависит от того, насколько популярен сайт.

Wayback Machine

Wayback Machine является бесплатным онлайн-сервисом, обеспечивающим доступ к веб-архивам «Архива Интернета». Сервис стал доступен для общественности только в 2001 году. За первые 20 лет существования Wayback Machine каталогизировал и сохранил коллекцию из более чем 286 млрд веб-сайтов. Архивные снимки поддерживают страницы с HTML, JavaScript и CSS. Через Wayback Machine пользователи могут отслеживать изменения сайтов и сравнивать разные версии правок. На май 2022 года Wayback Machine предоставлял доступ к более чем 682 млрд сохранённым веб-страницам. В 2017 году «Архив Интернета» представил модернизированную версию Wayback Machine. С технической точки зрения программное обеспечение Wayback Machine не является архивом, а скорее общедоступным интерфейсом к ограниченному подмножеству всех хранилищ. Функционирование платформы осуществляется за счёт веб-краулев и пользователей, добавляющих собственные сайты через ввод URL интересующего портала.

Любой пользователь может сохранить URL-адреса для архивирования, а с бесплатной учётной записью в архиве можно создать и заархивировать любые исходящие или внешние ссылки на исходной странице. Согласно исследованию 2014 года, большинство пользователей «Архива» заходят на Wayback Machine в поисках англоязычных материалов, которые не могут найти в «живом» сегменте интернета.

Archive It

В 2006 году «Архив» представил сервис под названием Archive It — службу веб-архивирования, помогающую организациям и частным лицам собирать, создавать и сохранять собственные коллекции цифровых данных. Archive It предоставляет возможности для веб-сканирования сайтов, организацию и управление данными, техническими отчётами для мониторинга краулинга, интерфейс для ввода метаданных сайта и полнотекстовый поиск. Служба работает на программном обеспечении с открытым исходным кодом Heritrix.

Весь контент размещён в дата-центрах «Архива Интернета». Для пользователей доступны более 200 коллекций, связанных с историей, культурой, наукой, правами человека и другими общественно важными темами.

Human Rights Web Archive

Human Rights Web Archive (HRWA) — это коллекция архивных копий веб-сайтов более 600 неправительственных организаций, национальных институтов по правам человека и блогов, так или иначе освещающих тему прав человека. HRWA была собрана различными неправительственными организациями, национальными правозащитными учреждениями и отдельными лицами. Создание HRWA было инициировано библиотеками и информационными службами Колумбийского университета и его Центра документации и исследований в области прав человека (CHRDR) при поддержке Фонда Эндрю У. Меллона. Сбор данных начался в 2008 году, идентификацией необходимых порталов занимались специалисты в области прав человека из различных регионов мира. По состоянию на 2022-й коллекция регулярно обновлялась. Сайты межправительственных организаций, такие как ООН, не были включены в сборник. Коллекция включает более 711 веб-сайтов, из которых более 50 млн доступны для поиска. Сбор данных начался с пилотного проекта в 2008 году, веб-сайты сканировались ежеквартально с помощью службы Archive It. Копии коллекций хранятся в «Архиве Интернета» и Библиотеке Колумбийского университета. На 2022-й HRWA включал более тысячи сайтов и 50 млн документов.

Захвати Уолл-стрит

С началом в 2011 году серии протестов в Нью-Йорке под названием «Захвати Уолл-стрит», призывающих к социальному и экономическому равенству, члены команды Archive It и представители онлайн-сообщества добровольно выявляли и фиксировали все связанные с движением ресурсы. Коллекция включает в себя веб-сайты, блоги, социальные порталы и новостные статьи из традиционных или альтернативных СМИ. Информацию о протестах за пределами Нью-Йорка собирал Roy Rosenzweig Center for History and New Media при Университете Джорджа Мейсона.

Книжная коллекция

Open Content Alliance

В 2005 году «Архив» инициировал создание Open Content Alliance (ОСА) — консорциума организаций и компаний, совместно занимающихся оцифровкой библиотечных фондов и размещением их в открытом доступе. В проекте участвовали, кроме «Архива Интернета», Yahoo, Калифорнийский университет, Торонтский университет, Национальный архив Великобритании и другие. В OCA входил и Microsoft, однако в 2008 году компания объявила, что сокращает свои инвестиции в проект по оцифровке книг. При этом Microsoft снял все договорные ограничения на книги, являющиеся общественным достоянием, и позволил «Архиву» оставить себе всё необходимое оборудование. Решение Microsoft заставило «Архив» искать новые источники финансирования.

На май 2022 года «Архив» предлагал более 35 000 000 книг и текстов в открытом доступе. Существует также коллекция из 2,3 млн современных электронных книг, доступных всем зарегистрированным пользователям. Пользователи могут осуществлять поиск по контенту, виду медиа, году, теме и предметам. На главной странице раздела книги также перечислены коллекции, сортированные по просмотрам, названию, дате публикации и автору. Для создания книжной коллекции «Архив» сотрудничал с более чем 1100 библиотечными учреждениями, такими как Бостонская публичная библиотека, Библиотека Конгресса и другие. В ходе партнёрства были оцифрованы разные типы носителей, в том числе микрофильмы, журналы и серийные публикации, в основном на английском, нидерландском, немецком, французском, арабском, итальянском. В день сканировали около 3 500 книг в 18 местах по всему миру. Книги, изданные более 95 лет назад, доступны для скачивания. Подобный механизм цифрового распространения использует те же технологии защиты, которые издатели используют для своих печатных электронных книг, распространяемых коммерческими предприятиями, такими как OverDrive, Inc. и Google Книги.

Open Library

«Архив Интернета» функционирует как онлайн-библиотека и выдаёт цифровые копии пользователям при условии, что одновременно в обращении находится не более одной цифровой копии книги. В 2006 году был запущен Open Library — онлайн сервис, позволяющий пользователям читать электронные копии книг в соответствии с «контролируемым цифровым кредитованием» (или CDL), ограничивающим количество одновременных заимствований одного отсканированного изображения. «Архив Интернета» обходит традиционные формы лицензионных ограничений — копии снимаются с физических копий, а не приобретаются в цифровой форме, поэтому проект никогда не заключает лицензионное соглашение с издателем.

Количество текстов по десятилетиям

Медиа

Аудио

В 2017 году «Архив» инициировал проект The Great 78 Project, посвящённый сохранению тысяч виниловых пластинок, работающих со скоростью 78 об/мин, некоторые из которых были сделаны в начале 1900-х. Помимо «Архива», в проекте принимают участие ARChive of Contemporary Music и George Blood Audio. The Great 78 Project ставит перед собой цель найти, очистить, оцифровать и архивировать около тысячи записей со старых проигрывателей в день. Для этого каждая пластинка очищается на специальной машине, которая распыляет на её поверхность дистиллированную воду. Впоследствии небольшой пылесос всасывает воду вместе с грязью, накопившейся в пластинках за эти годы. Затем диски фотографируют и на основе этих фотографий изготавливают этикетки для добавления в общую базу данных архива. Большая часть всех обработанных записей принадлежит крупным звукозаписывающим компаниям, таким как Columbia Records, RCA Records и Capitol Studios, однако в коллекцию вошли и около 1700 других лейблов. Только за первый год работы было размещено около 50 000 оцифрованных дисков. В рамках проекта «Архив Интернета» планирует оцифровать более 200 000 физических записей, большинство из которых относится к 1950-м годам и ранее.

Значительную часть аудио коллекции «Архива Интернета» составляет Live Music Archive — коллекция более чем 220 000 концертных записей, сжатых без потерь. Часть этой коллекции досталась от музыкального сообщества etree, распространяющего записи живых концертов. «Архив» содержит записи живых выступлений различных артистов, включая Grateful Dead, Джона Мейера, Эллиотта Смита, The Smashing Pumpkins.

Фото

На 2022 год фото коллекция «Архива» состояла из 4,3 млн изображений. Одной из крупнейших подколлекций являются полученные с 2007-го в сотрудничестве с NASA. Организации совместно сканировали и архивировали фотографии, исторические фильмы и видео из архива агентства. Благодаря этому партнёрству коллекции доступны в едином архиве снимков NASA на сайте «Архива».

В 2014 году исследователь Kalev Leetaru из Университета Джорджа Вашингтона выгрузил 2,6 млн фотографий из находящихся в открытом доступе книг из «Архива». Впоследствии он добавил все изображения на сервис Flickr, заранее добавив тэги ко всем картинкам, чтобы пользователям был доступен поиск по материалам.

Видео и игры

Видео коллекция «Архива» состоит из множества подколлекций, включая более 3 млн часов записанных новостных телетрансляций. Проект по записи и хранению новостных репортажей был инициирован Philly Political Media Watch Project — программой, созданной Sunlight Foundation, Philadelphia City Council, Консорциумом лингвистических данных при Пенсильванском университете и Центром общественных исследований и обслуживания Делавэрского университета. Благодаря проекту на сайте «Архива» доступны сотни тысяч новостных репортажей и сохранённых политических реклам.

В 2019 году «Архив» пополнил коллекцию 2,5 тысячами старых игр, написанных под систему DOS. Это произошло по результатам проекта eXoDOS, в рамках которого старые игры анализировались и оптимизировались для работы на современных компьютерах. В 2021 году компания Adobe заявила о прекращении работы Flash Player. В ответ «Архив» опубликовал на сайте коллекцию из несколько сотен игр и флеш-анимации.

Операционные системы

В 2016 году «Архив Интернета» опубликовал крупную коллекцию программ для семейства операционных систем Windows 3.x. Всего в разделе The Windows 3.x Showcase размещено 1523 программы, работа которых возможна благодаря встроенному эмулятору Windows 3.1 на JavaScript. Помимо этого в коллекцию входят программы, игры и демонстрационная версия Windows 95. Для защищённых авторским правом файлов сотрудники «Архива» опубликовали бесплатные аналоги.

Авторское право

Контролируемое цифровое кредитование

Для предоставления доступа к книжным работам через сервис Open Library руководство «Архива» следует принципам контролируемого цифрового кредитования (CDL) — интерпретации закона об авторском праве, согласно которому библиотеки могут одалживать оцифрованные печатные книги по тому же принципу, что и печатные — количество выданных цифровых изданий должно соответствовать тем копиям, которыми владеет библиотека. «Архив» приобретает все книги из своей коллекции, либо в печатном, либо в электронном виде. Затем он сканирует их для создания собственных цифровых файлов, которые впоследствии делает доступным для читателей. Поэтому проект никогда не заключает лицензионное соглашение с издателем. Все выдаваемые онлайн-файлы имеют встроенный код, благодаря которому доступ к работе может получить только один пользователь через электронную очередь. Подобная модель позволяет библиотекам делать свои книги доступными в цифровом виде, но также позволяет издателям и авторам расширений получать оплату за свою работу без потери продаж. Когда печатная библиотечная книга очень популярна, библиотеки, как правило, покупают больше экземпляров. Читатели не имеют права на копирование или распространение материалов. Таким образом система CDL позволяет обходить часть ограничений, заложенных в законодательство по авторскому праву.

Веб-архивирование

«Архив» удаляет данные из Wayback Machine по просьбам правообладателей, которые могут доказать авторские права, предоставить описание материала, контактные данные заявителя и подписанное заявление.

Влияние

Деятельность «Архива Интернета» оказала существенное влияние на развитие практик веб-архивирования по всему миру. По примеру АИ было создано множество масштабных программ и порталов веб-архивирования, часто — национальных. Одними из первых начали сохранять онлайн-контент крупные международные библиотеки — Библиотека Конгресса, Национальная библиотека Австралии, Национальная библиотека Швеции, Национальная библиотека Норвегии и Национальная библиотека Новой Зеландии. В 2013 году стартовал проект EU web archive, занимающийся сканированием и архивированием веб-сайтов Европейского союза для сохранения европейского веб-контента в долгосрочной перспективе и в открытом доступе. В 2000 году Чехия инициировала проект Webarchiv по веб-архивации национальных сайтов. Позже аналогичные инициативы были реализованы в Хорватии, Венгрии, Ирландии, Бельгии и других странах. В большинстве случаев архивирование осуществлялось созданным «Архивом» веб-краулером Heritrix. Также «Архив Интернета» предоставляет большую часть техники, которая используется другими учреждениями для создания приложений по архивированию.

Коллекции «Архива» часто используют исследователи из различных областей науки. Так, данные анализируют на предмет изменений лингвистических и социальных практик, поведения компаний, стратегий продаж. Помимо этого, учёные могут использовать архивированные материалы для установления права на открытие или публикацию, а также чтобы получить доступ к журналам открытого доступа — согласно исследованиям 2020 года, с начала 2000-х из интернета исчезло 84 журнала ОД по естественным наукам и ещё около 100 — по социальным и гуманитарным.

Правовые споры и блокировки

Церковь Саентологии

В 2002 году юристы Церкви Саентологии потребовали от «Архива Интернета» удалить из Wayback Machine архивные копии страницы портала Xenu.net, принадлежащего критику церкви Андреасу Хельдал-Лунду. Причиной послужило наличие выдержек из документов Церкви на портале Хельдала-Лунду. Однако в ответ «Архив» удалил не только страницы сайта с выдержками, но и закрыл доступ к всему порталу Xenu.net. Решение «Архива» вызвала масштабные публичные споры об этике и свободе слова.

National Emergency Library

Из-за пандемии COVID-19 и вынужденной изоляции многих людей в 2020 году «Архив» запустил временную службу «Национальная библиотека на случай чрезвычайных ситуаций», выложив в открытый доступ копии 1,4 млн книг для тех людей, которые не могли попасть в библиотеки. В отличие от традиционной работы сервиса Open Library, пользователи Библиотеки на случай чрезвычайных ситуаций могли одолжить тексты без очереди. В ответ американское объединение авторов Authors Guild выпустило открытое письмо, в котором обвинило организацию в «фактическом воровстве» — проект нарушил ряд положений CDL, разрешив более чем одному пользователю доступ к текстам. В ответ на нарушения на «Архив Интернета» четыре коммерческих издательства — Hachette, Penguin Random House, Wiley — подали иск, обвинив портал в пиратстве. По этой причине «Архив Интернета» завершил свою программу раньше, чем планировалось, − 16 июня 2020 года, вместо 30 июня. Иск был направлен на запрет функционирования Open Library как схемы, которая оцифровывает и выдаёт охраняемые авторским правом работы. Судебное разбирательство по делу назначено на ноябрь 2021 года.

Страны СНГ

В 2014 году Роскомнадзор внёс «Архив Интернета» в реестр запрещённых сайтов за наличие копии документального фильма «Звон мечей», выпущенного Исламским государством. Через год Прокуратура Российской Федерации вынесла решение о блокировке сайта «Архива Интернета» на основании статьи 15.3 закона «Об информации, информационных технологиях и о защите информации». Причиной для блокировки портала послужила архивированная статья «Одиночный джихад в России», которая, согласно прокуратуре, содержала призывы к массовым беспорядкам и осуществлению экстремистской деятельности. После удаления ресурсом всех ссылок на запрещённые в России сайты, доступ к порталу был восстановлен.

В 2015 году портал «Архив Интернета» попал в список нежелательных сайтов, заблокированных в Казахстане.

6 июня 2017 года Октябрьский суд Бишкека заблокировал сайт в Киргизии из-за материалов «экстремистского содержания».

В 2019 году Ассоциация по защите авторских прав в интернете (АЗАПИ) выступила за блокировку «Архива Интернета» в России. Причиной для этого послужило присутствие в коллекции библиотеки копий аудиокниг российских писателей — Дмитрия Глуховского и Дарьи Донцовой. Иск по делу был подан 13 марта 2019 года, рассмотрение Мосгорсудом состоялось 13 мая 2019 года в экстренном порядке. Согласно решению суда «Архиву Интернета» запретили создавать технические условия для размещения аудиокниг.

12 мая 2022 года Роскомнадзор подал иск против «Архива Интернета» по статье 13.41 КоАП РФ ("Неудаление информации, признанной в РФ запрещённой"). Причиной стало архивированное сервисом видео, в котором показывалось как изготовить коктейль Молотова. Судебное заседание прошло 28 июня 2022 года, по его результатам «Архив Интернета» оштрафовали на 800 тысяч рублей.

Турция

9 октября 2016 года «Архив» был временно заблокирован в Турции после того, как он был использован хакерами для размещения 17 ГБ правительственных электронных писем.

Индия

В 2017 году сайт сервиса WayBackMachine был заблокирован в Индии по решению суда Мадраса в ответ на иск Болливудских правообладателей, указавших на наличие на портале нескольких тысяч ссылок на пиратские копии фильмов. После блокировки индийское правительство обвинили в цензуре.