Почему никто не делает актуальную копию сайта?

Ответить

ilney »

Я сделал все как написано выше в инструкции. Скачивал 8 дней на минимальной скорости. У меня получилось свыше 4гб и программа продолжала скачивать мне пришлось прервать процесс. Админ подскажи как сделать копию меньше (повторюсь делал все как положено, фильтры все выставил).
Дело в том, что программа скачивания сайта типа httrack, почему-то идет по некоторым ссылкам внутри форума и пытается скачать некторые сайты целиком. И тупо скачивает не нужные нам страницы на сторонних сайтах. Отсюда и такой размер. Чистого сайта со всеми картинками должно быть < 900мег.
То, что у вас скачалось сейчас, 4Гб, это почти полный форум, только из него теперь надо убрать лишнее.
1. папку убрать old.zip в корне или hts-cache полностью. он мегабайт 500 (он нужен только для следующих пере-закачек, можно перенести его пока в другое место, пригодится при следующей закачке)
2. и все папки огромного размера более нескольких МБ. В каждой отдельной папке лежат фотографии. В среднем одна фотка ~50-200Кб. в папке может быть ну 5, ну 10 фоток. Если папка 20 мБ, то скорее всего в ней не фотки а ненужные страницы чужого сайта.
Некоторые такие пути на сторонние сайты были запрещены, по ссылке есть лист исключений. Но появились новые за последный год. Они и мешают.
Таких ненужных огромных папок может быть всего штук 5. ?


Возможно надо в программе запретить совсем сторонние ссылки.

ilney »

Спасибо за совет. Не поленюсь и сделаю еще одну попытку на несколько дней )
PS: Мозг перегружен полезными и "бес(з?)"полезными знаниями.
Вы как админ можете сделать такую свежую копию? Если у меня получится уложиться в 900мб я конечно выложу на торрент, может кому нибудь пригодиться.
Да вы же уже скачали. Внутри этих 4 гиг уже есть полезный 1 гиг.
уберите всё лишнее и будет хорошая копия. Попробуйте, запустите в каталоге файл index или любой другой.
или попробуйте заново скачать программой teleport, может она поумней.
папка
en.wiktionary.org -1 гиг !
www.anapafuture.ru -230мб
это мусор однозначно.

вот список исключений

+*.png +*.gif +*.jpg +*.css +*.js -ad.doubleclick.net/* -mime:application/foobar
-*.zip -*.tar -*.tgz -*.gz -*.rar -*.z -*.exe
-*.mov -*.mpg -*.mpeg -*.avi -*.asf -*.mp3 -*.mp2 -*.rm -*.wav +*.vob -*.qt -*.vid -*.ac3 -*.wma -*.wmv
-*profile.php*
-*index.php?c=*
-*&view=next*
-*&view=previous*
-*consul.borovic*
-*icon-art.info*
-*gudok.ru*
-*ordineavvocati.it*
-*/robots.txt
-*&view=print*
-*viewforum.php?f=41*
-*viewforum.php?f=42*
-*viewforum.php?f=43*
-*viewforum.php?f=44*
-*wikipedia.org/wiki/*
-*wikimedia.org/wiki/*
-*image006.mylivepage.ru*
-*wrapheader*
-*tort777.mylivepage.ru*
-*miguel.mylivepage.ru*
-*posting.php*
-*report.php*
-*belta.by*
-*localhost/new/ЦитР*
-*ucp.php*
-*faq.php*
-*search.php*
-*google.com*
-*memberlist.php*
-*html#
-*&start=0&st=0&sk=t&sd=a*
-*s3.amazonaws.com*
-*twitter.com*
-*www.udmrnd.ru*
-*mylivepage*
-*igumnov.com*
-*media.photobucket.com/image/&*
-*photobucket.com/albums/*
-*media.photobucket.com/image/recent*
-*media.photobucket.com/recent/image*


-*media.photobucket.com/popular*
-*www.mts.ru*
-*piterbooks.ru*
-*en.wiktionary.org*
-*en.m.wiktionary.org*
-*googleusercontent.com*
-*www.agentura.ru*
-*www.laweekly.com*
-*www.anapafuture.ru*
-*russned.ru*
Вот еше что важно для скачивания в программе Httrack

Задать параметры -> ограничения -

максимальная глубина 0-20
максимальная глубина внешних 0-3
что это значит не понятно.
по умолчанию стоит 20 и 3
если ставить 2 и 2 скачивает очень быстро но нет картинок, ссылки на них почему то остаются внешние, то есть, без подключения к сети их не видно.


модератор писал(а):или попробуйте заново скачать программой teleport, может она поумней.

без ключа скачивает только 500 страниц, но быстро и корректно.
Подскажите, как скачать копию сайта.

« О нашем форуме

tumblr hit counter