1. Как настроить ТелеПорт (TP) для закачки только одной страницы, но не стартовой, например,
http://book.by.ru/cgi-bin/book.cgi?book=Situation-in-Russia&p=5 ?

Короткий ответ: скачать файл конфигурации SepPages.cfg (4К) и в TP выбрать File->Load Project Configuration...
Для сведения: файл конфигурации для закачки стартовой страницы
Более подробно: Если просто отправить TP закачивать с установками по умолчанию, он закачает не только сообщения нитей на данной странице, но и другие страницы, другие комнаты, нити на этих страницах, ответы на каждое сообщение, а в каждом сообщении попытается закачать и дерево нити, продублированное внизу. Для 5000 записей на форуме TP вместо 500 желаемых сообщений накачает вам около 20000. Это при том, что его база данных имеет ограничение около 65 тыс. ссылок, так что даже вероятности, что TP, остановившись по этой причине, не пропустит нужных вам файлов, нет. Поэтому вначале нужно разобраться, как устроен сайт book.by.ru.

Все стартовые страницы имеют вид:
http://book.by.ru/cgi-bin/book.cgi?book=Situation-in-Russia -- это начальная,
или
http://book.by.ru/cgi-bin/book.cgi?book=Situation-in-Russia&p=5 -- это страницы,
или
http://book.by.ru/cgi-bin/book.cgi?book=Situation-in-Russia&flat=room5 -- это комнаты
Наконец, по ссылке "ответить" будет примерно такой URL:
http://book.by.ru/cgi-bin/book.cgi?book=Situation-in-Russia&i=978973685&add=1

 

Поэтому в дальнейшем, чтобы решать что именно и как закачивать, вам нужно часто пользоваться кнопкой:



В данном случае, идем на закладку Exclusions и в текстовом окне прописываем такие строки:

 

Первая строка *&add*, избавляет нас от файлов по ссылке "ответить". Вторая строка, *&=room*, запрещает следовать в комнаты. Третья строка, *&ac=1*, отсекает файлы, генерируемые сервером еще в те времена, когда длинные файлы автоматически разделялись.

 

 

Но это еще не всё. Также в свойствах закачки (в левой панели на нужном URL правой кнопкой мыши вызвать контекстное меню, там Starting Adress Properties...) указать, как далеко следовать по ссылкам.


2. Как закачивать только текст, безо всяких картинок?

Для этого на закладке File Retrieval



 

снимите флажок embedded files. Этот запрет сильнее указания на той же закладке выше: Retrieve only files... даже если там указать специально только картинки GIF, JPG и т.д.


3. Как закачать только самые свежие файлы со стартовой страницы?

Для этого не нужно пользоваться вот этой кнопкой, а использовать следующий трюк, не описаный автором. Эта кнопка с треугольничком предназначена для всего проекта, в то время как команда из контекстного меню относится к конкретному файлу, поэтому изменения, найденные в этом файле и будут отражаться на списке того, что собирается закачивать TP. Перед тем, как использовать этот способ, нужный файл *.tpp должен быть только что открыт. Затем в правой панели с загруженными файлами на стартовом файле, т.е.-->
в контекстном меню правой кнопкой мыши выбрaть Retrieve Now.




 

После этого для контроля нажмите кнопку-->


и обратите внимание, что после появления в правой панели первого файла, внизу окна программы, в строке состояния, появятся следующие надписи--> 



Теперь, если написано 4 files read, то именно столько вы видите в правой панели появившимися, и одновременно сохраненные на диск. А вот сколько TP собирается штук качать, написано так: 412 files queued. После того, как files queued напишет 0, и перестанет мигать синим панель, TP завершит закачку и начнет работать с базой данных.

Для того, чтобы снова закачать только свежие файлы, откройте другой файл *.tpp или создайте новый, а затем вернитесь к прежнему.

Внимание: не прерывайте кнопкой <cancel> TP, что бы он ни делал. Мой опыт показывает, что после этого безнадежно портится база. Дождитесь, пока окна сами закроются.

Замечание: Если вы используете TP только для быстрой закачки обновлений, периодически делайте Clear Project Database, иначе он будет работать все медленнее и медленнее, а файлы будут загромождать диск.


4. Как быстро посмотреть, закачал ли TP всё, что вы хотели и готова ли страница к архивированию?

Для этого двойным щелчком запустите стартовую страницу, с которой начинал просмотр TP. После этого в IE выберите из меню <файл> опцию "работать оф-лайн". Пред тем, как перейти к этому режиму работы, IE проверит доступность локальных файлов и преобразует свою модель HTML страницы для показа вот такого курсора

останется только провести мышкой по всем ссылкам и там, где такой курсор появится, значит, этот файл отсутствует на диске.


5. Я обнаружил, что некоторые файлы отсутствуют на диске, как указать TP добавить недостающие, максимально сэкономив время on-line?

Иногда бывает, что способ получения свежих файлов :) из пункта 3. дает сбой (вы нажали cancel или связь прервалась и т.п.). В этом случае в правой панели выделите все закачанные файлы и запретите их командой Disable из контекстного меню под правой кнопкой мыши. После этого на закладке Exploration убедитесь, что отмечено галочкой Update HTML files и радиокнопка установлена на Update both good and bad files. После этого жмите кнопку Start с треугольничком, TP начале начнет докачку тех файлов, что есть в его базе данных, а затем стартовую страницу. Однако новое со стартовой страницы уже не будет закачиваться в этой сессии, поэтому укажите для стартовой страницы Retrieve Now.


6. При открытии стартовой страницы, с которой начинали закачку, в режиме оф-лайн, некоторые ссылки выглядят как недоступные локально, хотя в правой панели ТелеПорта они есть, на диске тоже есть.

Иногда происходит сбой и в стартовую страницу записываются неверные ссылки. Откройте в свойствах закладку Browsing/Mirroring и переключите радиокнопку с Link to the Internet... на Link to a place where the local file will be stored, а затем нажмите кнопку Relink all files in the project folder now. Попробуйте снова, а затем не забудьте вернуть установки на место.


7. При старте TP пишет: "...no new files matching this project's retrieval specifications were found, and no old files were updates." и не желает обновлять даже стартовый файл.

Это значит, в его базе данных не отмечены файлы, которые можно обновлять. Дело в том, что я обычно не ставлю галку Update HTML files. Это связано с тем, что когда TP загружает стартовую страницу, он строит модель структуры сайта на глубину, которую вы позволили в установках. Сначала TP получает все HTML файлы, которые есть в этой модели, и в случае повторного старта, после получения новых файлов, без остановки принимается обновлять те, что были получены раньше, если у вас стоит эта галочка, Update HTML files. Значит, если вы получили около 500 файлов для стартовой страницы, и повторно стартуете, то TP остановится только после получения новых и обновления старых HTML файлов. У-ффф! Для того, чтобы не происходило обновление старых файлов, проще отключить Update HTML files, и для того, чтобы TP смог стартовать, вручную указывать ему конкретно на стартовый файл в контекстном меню под правой кнопкой мыши, как описано в пункте 3. Есть и иной путь -- отметить эту галку, но все закачанные файлы, (кроме стартовой страницы, естественно), запретить вручную -- это когда они перечеркнуты красным крестиком. Тогда TP обновляет то, что не запрещено -- один-единственный файл, стартовый, -- и следует по появившимся новым ссылкам.


Файл конфигурации только для стартовой страницы: FirstPage.cfg (4К)

 

Используются технологии uCoz