(no subject)

Всем известно, что Интернет огромный, непредставимо большой. Но не всем известно, что большая его часть - полнейший треш (типа восемнадцатой страницы темы про Ющенко из подфорума "оффтопик" на сайте mama.ru за 2007 год, не говоря уже о совсем сгенерированных роботами для роботов страничках). Поисковики успевают следить за изменениями и вообще могут как-то что-то искать именно поэтому: большая часть интернетов никому настолько не интересна, что даже заглядывать туда не нужно (или нужно ровно однажды, чтобы убедиться, что ничего там хорошего нет).
Что если сделать копию Интернета, состоящую только из текстов (без картинок и видео) и только сколько-нибудь полезных страничек (например, хоть раз кем-нибудь посещенных за некоторый недавний период)? Сколько она займет?
Оказывается, можно уложиться в десять-двадцать терабайт на всё про всё, пять современных жестких дисков. Можно слегка допилить поисковые программы Яндекса и навесить сверху; применив некоторое хитроумие, можно получить единовременную оффлайн-копию всего полезного интернета, работающую на оборудовании стоимостью единицы тысяч долларов, с возможностью поискать по нему в обычной на вид поисковой системе. Запросы, правда, будут отрабатываться очень долго - если не переписывать ничего специально, то десятки минут.
http://plakhov.livejournal.com/209469.html
( Collapse )