Curl покажете пример для скачивания с сайта

@dumon · Регистрация: 22.11.2016

Author24 — интернет-сервис помощи студентам

Подскажете пожалуйста!
Как с сайта https://linuxformat.com/archives&listpdfs=1 скачать один pdf-файл?
И как скачать все pdf-файлы?

Пример можно?

Добавлено через 17 часов 48 минут
Вот маленький пример (прямая ссылка):
curl -O http://radionostalgia.club/lib... 95_03.djvu

А если файл, php отдаёт!
То как?

@dumon · 03.10.2017, 20:11 **[ТС]**

У меня получилось так (скачиваем все pdf-файлы):

Perl

#
# Скрипт скачивает статьи (статьи из журналов Linux Format)
#             с сайта https://linuxformat.com/.
#
#             Сама ссылка где находятся статьи:
#        https://linuxformat.com/archives&listpdfs=1
#
 
# Perl ver. 5.20.3. Program: loadpdflinuxformat.pl. Version: 1.0.
 
    # Для объявления переменных.
    use strict;
 
    # В случае возникновений каких-либо проблем нужно остановить работу скрипта.
    use warnings FATAL => 'all';
 
    # Каталог где находится файл archives&listpdfs=1.
    my $catalog = 'linuxformat.com';
 
    # Префикс для скачивания файла (сайт Linux Format).
    my $prefix = 'https://linuxformat.com';
 
    #
    my $file = 'archives&listpdfs=1';
 
    # Загрузка файла: "archives&listpdfs=1".
    `wget -nc -c -r -l0 --tries=8 --accept="archives&listpdfs=1" https://linuxformat.com/archives`;
 
    #-
    my $search_teg_1;        # Что определяет нужную нам строку.
    my $issue_start;         # Что определяет начало Issue с номером в строке.
    my $issue_end;           # Что определяет конец Issue с номером  в строке.
    my $title_start;         # Что определяет начало названия в строке.
    my $title_end;           # Что определяет конец названия в строке.
    my $description_start_1; # Что определяет начало описания 1 в строке.
    my $description_end_1;   # Что определяет конец описания 1 в строке.
    my $description_start_2; # Что определяет начало описания 2 в строке.
    my $description_end_2;   # Что определяет конец описания 2 в строке.
    my $link_start;          # Что определяет начало ссылки в строке.
    my $link_end;            # Что определяет конец ссылки в строке.
    my $line;                # Текущая строка.
    my $pos;                 # Позиция в строке при поиске тега $search_teg_1.
    my $count;               # Счетчик количества найденных ссылок для скачивания.
    my $pos_start;           # Начальная позиция: номера журнала, название, описание 1-2, ссылки.
    my $pos_end;             # Конечная позиция: номера журнала, название, описание 1-2, ссылки.
    #-
 
    # -
    my $issue;         # Само Issue.
    my $issue_number;  # Номер Issue.
    my $title;         # Название (что это: Interview, Feature и т.д.).
    my $description_1; # Описание 1.
    my $description_2; # Описание 2.
    my $link;          # Сама ссылка на файл.
    # -
 
    #-
    my $filename_pdf; # Текущее имя файла под которым будет сохранён pdf-файл.
    my $filename_txt; # Текущее имя файла под которым будет сохранён txt-файл.
    #-
 
    #
    # Разбирать будем такую строку (пример):
    #
    #    <li><a href="/archives?issue=222">Issue 222</a> - <strong>Feature:
    #    <img src="/files/pdficon.gif" />&nbsp;
    #    <a href="/includes/download.php?PDF=LXF222.feat_server.pdf">
    #    Build the Ultimate server</a></strong> - The base LXF server install <em>
    #    (Jonni Bidwell)</em><br /><br />
    #
 
    `clear`;
    print "\n\n";
 
    # Какой тег найти.
    $search_teg_1 = '<li><a';
 
    # Что определяет начало номера журнала (Issue) в строке.
    $issue_start = 'Issue ';
    # Что определяет конец номера журнала (Issue) в строке.
    $issue_end = '</a> -';
 
    # Что определяет начало названия в строке.
    $title_start = ' - <strong>';
    # Что определяет конец названия в строке.
    $title_end = '<img src=';
 
    # Что определяет начало описания 1 в строке.
    $description_start_1 = '.pdf">';
    # Что определяет конец описания 1 в строке.
    $description_end_1 = '</a></strong>';
 
    # Что определяет начало описания 2 в строке.
    $description_start_2 = '</a></strong>';
    # Что определяет конец описания 2 в строке.
    $description_end_2 = '</em>';
 
    # Что определяет начало ссылки в строке.
    $link_start = '/includes/';
    # Что определяет конец ссылки в строке.
    $link_end = '.pdf';
 
    # Само Issue.
    $issue = 'Issue';
 
    print "\n";
 
    $count = 0;
    if (open (InFile, "<" . $catalog . '/' . $file))
        {
        while ($line = <InFile>)
            {
            # Ищем нужную нам строку ($search_teg_1).
            # Если -1, то не найдено.
            $pos = index($line, $search_teg_1, 0);
            if ($pos ne '-1')
                {
                $count++;
 
                print $count . '.' . "\n";
 
                # ---
 
                # +
                # Ищем позицию, которая определяет начало Issue с номером в строке.
                $pos_start = index($line, $issue_start, 0);
                # Ищем позицию, которая определяет конец Issue с номером в строке.
                $pos_end = index($line, $issue_end, 0);
 
                # Вырезаем номер.
                $issue_number = substr($line, $pos_start + length($issue) + 1, $pos_end - $pos_start - length($issue) - 1);
 
                # Дополнить номер нулями слева.
                my $issue_number = sprintf("%03d", $issue_number);
 
                #+
                # Ищем позицию, которая определяет начало названия в строке.
                $pos_start = index($line, $title_start, 0) + length($title_start);
                # Ищем позицию, которая определяет конец названия в строке.
                $pos_end = index($line, $title_end, 0);
 
                # Вырезаем название.
                $title = substr($line, $pos_start, $pos_end - $pos_start);
 
                # Заменить двоеточие на точку.
                $_ = $title;
                    s/\:/./g;
                        $title = $_;
 
                #+
                # Ищем позицию, которая определяет начало описания 1 в строке.
                $pos_start = index($line, $description_start_1, 0) + length($description_start_1);
                # Ищем позицию, которая определяет конец описания 1 в строке 
                $pos_end = index($line, $description_end_1, 0);
 
                # Вырезаем описание 1.
                $description_1 = substr($line, $pos_start, $pos_end - $pos_start);
 
                #
                #
                #    Пример удаления символа (символов) из строки:
                #    -------
                #      |  ---
                #      |  | $_ = "He's out bowling with Barney tonight. Barney!";
                #      |--|    s/Barney//g; # Удалить (везде) Barney.
                #         |       $stroka = $_;
                #         |          print "$stroka" . "\n";
                #         ---
                #
 
                # Удаление косой черты 
                $_ = $description_1;
                    s/\///g;
                        $description_1 = $_;
 
                #+
                # Ищем позицию, которая определяет начало описания 2 в строке.
                $pos_start = index($line, $description_start_2, 0) + length($description_start_2);
                # Ищем позицию, которая определяет конец описания 2 в строке 
                $pos_end = index($line, $description_end_2, 0);
 
                # Вырезаем описание 2.
                $description_2 = substr($line, $pos_start, $pos_end - $pos_start);
 
                # Теперь удаляем тег <em>.
                $_ = $description_2;
                    s/<em>//g;
                        $description_2 = $_;
 
                # Добавить точку.
                $description_2.= '.';
 
                # +
                # Ищем позицию, которая определяет начало ссылки в строке.
                $pos_start = index($line, $link_start, 0);
                # Ищем позицию, которая определяет конец ссылки в строке.
                $pos_end = index($line, $link_end, 0) + length($link_end);
 
                # Вырезаем ссылку.
                $link = substr($line, $pos_start, $pos_end - $pos_start);
 
                # ---
 
                # И так, что у нас есть.
                #    $issue - содержит (пример): Issue 225, Issue 222 и т.д.
                #    $title - содержит (пример): Interview, Feature и т.д.
                #    $description_1 - содержит (пример): The Exercist, Build the Ultimate server и т.д.
                #    $dsscription_2 - содержит (пример): Katrina Owen on exercism.io (Jonni Bidwell),
                #                                        The base LXF server install (Jonni Bidwell) и т.д.
                #    $link - ссылка на файл (пример):
                #            /includes/download.php?PDF=LXF222.feat_server.pdf и т.д.
 
                # Собираем текущее имя pdf-файла.
                $filename_pdf = $issue . ' ' . $issue_number . ' - ' . $title . $description_1 . '.pdf';
 
                # Собираем текущее имя txt-файла.
                $filename_txt = $issue . ' ' . $issue_number . ' - ' . $title . $description_1 . '.txt';
 
                # ---
 
                # Закачиваем сам pdf-файл.
                `wget -c --tries=8 -O '$filename_pdf' $prefix$link`;
 
                # Записуем дополнительную информацию в файл-txt.
 
                # *
                # Создаём файл $newfilename_UTF8_txt.
                open(OutFile, '>', $filename_txt);
                close (OutFile);
                # *
 
                # *
                # Записать дополнительную информацию в файл $newfilename_UTF8_txt.
                open(OutFile, '>>', $filename_txt);
 
                # => Строка 1.
                # Перевод строки.
                print OutFile "\n";
 
                # => Строка 2.
                print OutFile '    Файл: ' . $filename_pdf . "\n";
 
                # => Строка 3.
                # Перевод строки.
                print OutFile "\n";
 
                # => Строка 4.
                # Разделяем строку на несколько строк (если нужно).
                use Text::Wrap;
                    my $string = $issue . ' ' . $issue_number . ' - ';
                        $string.= $title . $description_1 . $description_2;
                        $Text::Wrap::columns = 61; # 61 - сколько символов в строке.
                            my $textsplit = wrap('    ', '    ', $string) . "\n";
 
                print OutFile $textsplit;
 
                close (OutFile);
                # *
 
                # ---
                }
            }
 
        close (InFile);
        }
        else
        {
        print "\n";
        print "Файл " . $file . " не найден...";
        print "\n";
        }
 
    print "\n";
    print 'Всё...';
    print "\n";

Результат работы скрипта:

Issue 069 - Review. Darwinia.pdf
Issue 069 - Review. Darwinia.txt
Issue 096 - Review. Defcon.pdf
Issue 096 - Review. Defcon.txt
Issue 098 - Review. Penumbra: Overture.pdf
...
Issue 214 - Feature. Linux Mint 18.txt
Issue 222 - Feature. Build the Ultimate server.pdf
Issue 222 - Feature. Build the Ultimate server.txt
Issue 225 - Interview. The Exercist.pdf
Issue 225 - Interview. The Exercist.txt

Вопрос!
Может есть более простой способ получения pdf-файлов c https://linuxformat.com/archives&listpdfs=1
Может кто-то прокомментирует!
Сложно одному бодаться...

Спасибо.

@dumon 0 / 0 / 0 Регистрация: 22.11.2016 Сообщений: 33
		1
	Curl покажете пример для скачивания с сайта 01.10.2017, 12:27. Показов 529. Ответов 1 Метки нет (Все метки) Подскажете пожалуйста! Как с сайта https://linuxformat.com/archives&listpdfs=1 скачать один pdf-файл? И как скачать все pdf-файлы? Пример можно? Добавлено через 17 часов 48 минут Вот маленький пример (прямая ссылка): curl -O http://radionostalgia.club/lib... 95_03.djvu А если файл, php отдаёт! То как? 0

	03.10.2017, 20:11