С Новым годом! Форум программистов, компьютерный форум, киберфорум
Проекты
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Sivik

Программа получения ГОСТов с оф.сайта

03.07.2009, 20:54. Показов 1690. Ответов 0
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Предлагается сделать программу для скачивания страниц ГОСТ с официального сайта www.gost.ru и преобразвания в документы PDF/DJVU

Наверняка всем известно, что в нашей стране система стандартизации, представленная многочисленными ГОСТами, согласно распоряжению Верховного Суда РФ переводится на бесплатную основу. Это выражается в том, что Федеральная служба по стандартиации и сертификации (ФССС) публикует стандарты на своем официальном сайте.

Проблема заключается в том, что любой пользователь может открыть любой ГОСТ и прочитать его содержание, но не может сохранить его на жесткий диск. Таким образом ФССС оставляет за собой монопольное право продажи печатных и электронных версий. Цены же за каждый ГОСТ оказываются просто заоблачными (за 7 страниц ГОСТа, 3 из которых оказались "прелюдией" к тексту, отдал 100 рублей!!!)

При попытке открыть ГОСТ, на экране появляется страница оного. Обычными методами (сохранить рисунок, сохранить объект как, сохранить html страницу архивом или с картинками) сохранить эту страничку не получается ни в одном браузере (вместо страницы ГОСТ - нулевой gif) кроме Оперы. Она спокойно все сохраняет.

Вторая проблема - существуют ГОСТы (особенно технические) размером в 30, 50, 100 страниц. Открывать каждую страницу вручную - смерти подобно.

Третья проблема - Опера сохраняет картинки к каждой html-странице в отдельную папку. Искомый jpeg (страница ГОСТа) называется image000.jpg Нужно вытащить каждый такой jpeg из своей папки, переименовать и положить в некий каталог.

Четвертая проблема - вызвать программу, которая скомпонует jpeg-файлы в документ PDF/DJVU.

Собственно, алгоритм программы уже вырисовывается из списка проблем. Что касается работы с файлами - вопрос решенный, файлы научился вытаскивать, группировать, создавать из них документ.

А теперь вопрос:
Расскажите, какими конкретно методами (желательно с описанием кода или указанием того, какие темы читать, чтобы этот код написать), какими библиотеками или скриптами нужно воспользоваться, чтобы автоматизировать процесс открытия и сохранения html-страниц на жесткий диск? Какой алгоритм сохранения файлов использует Опера и можно ли к ней подключиться, чтобы сохранять эти странички???

Примечание: Если открываю первую страницу и сохраняю её, то фактически у меня на руках есть перечень конкретных ссылок на все остальные страницы ГОСТа. Достаю их парсером и добавляю в словарик. Далее надо послать ссылку в Оперу, заставить её сохранить открытую страницу с картинками по указанному пути.
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
03.07.2009, 20:54
Ответы с готовыми решениями:

Программа для получения информации с сайта в интернете
Есть следующий код: WAIT WINDOW "Соединение с сервером центробанка ..." NoWait ie =...

Программа для получения информации из сайта и присвоения информации переменным
Доброго времени суток, уважаемые пользователи форума! Надеюсь, у Вас сегодня хорошее настроение? Зная о профессионализме многих...

Получения кода сайта
Здравствуйте. Возник вопрос по получения кода сайта. Раньше для этого я использовал код: string url =...

0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
03.07.2009, 20:54
Помогаю со студенческими работами здесь

Получения данных с другого сайта
Пожалуйста помогите разобратся. Например создадим страницу Links2.html, в нем надо создать команду которая переходила по этой ссылке ...

Шаблон получения информации с другого сайта
Такой вопрос, не получается найти шаблон, который применяется в случае, если нужно в мое приложение(ASP.NET MVC) добавить данные с сайта в...

Баг в системе отправки=>получения сообщения с сайта
Не работает $from='message@sportassist.pro' = вместо етого используется основной мейл ( почему? ) ; а так же при вводе текста в форму на...

Программа получения параметров ПК
Здравствуйте, задача - написать программу, которая выводит следующие параметры компьютера: -Тип процессора -Версия операционной системы...

Программа получения провайдеров
Вы уж извините что влез с ADO.NET сюда, но часто вопросы задают как получить список провайдеров вот и отвечаю здесь, лениво мне...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
1
Ответ Создать тему
Новые блоги и статьи
Модель микоризы: классовый агентный подход
anaschu 02.01.2026
Раньше это было два гриба и бактерия. Теперь три гриба, растение. И на уровне агентов добавится между грибами или бактериями взаимодействий. До того я пробовал подход через многомерные массивы,. . .
Учёным и волонтёрам проекта «Einstein@home» удалось обнаружить четыре гамма-лучевых пульсара в джете Млечного Пути
Programma_Boinc 01.01.2026
Учёным и волонтёрам проекта «Einstein@home» удалось обнаружить четыре гамма-лучевых пульсара в джете Млечного Пути Сочетание глобально распределённой вычислительной мощности и инновационных. . .
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru