Форум программистов, компьютерный форум, киберфорум
Java SE (J2SE)
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.79/14: Рейтинг темы: голосов - 14, средняя оценка - 4.79
1 / 1 / 0
Регистрация: 02.03.2011
Сообщений: 42

парсер html страницы

22.10.2012, 16:53. Показов 2612. Ответов 1
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здраствуйте

есть вот такой участок кода

Java
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
static public String getSomeUrl(final String url) throws URISyntaxException, IOException, UrlNotFound, ClientProtocolException
{
        stringBuffer = getUrlSource(url); // переменная stringBuffer типа StringBuffer, в нее пихаем исходник страницы.
        String src = stringBuffer.toString();
        Pattern p = Pattern.compile("(?s)(?i).*source\\s+src='(.+?mp4)'.*"); // регулярка не работает.
        Matcher m = p.matcher(src);
        if (m.matches()) 
        {
                String link = m.group(1);
             
                return link;
        }
        else
        {
            throw new UrlNotFound();
        }
}
исходник страницы html:


...много всякой фигни...

HTML5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
<script type="text/javascript" src="/jwplayer.js"></script>
    <script type="text/javascript">
        //main configuration
        var playerMainConfig = {
            flashplayer: "/player.swf",
            file: "http://content4.vid.com/eWosYZh%252FqncsmmjUNOTq5PDOnyV6mVAYfL2kDy43HrhSAZxejcG5ajqqL0j%252BcPNc4bR16SdPY669Qx01Tut6QLURo%252FRig45umtqQDhIissc%252FTCJNWlvzZYoPKXOsx39A/1870354.mp4",
            image: "http://thumbs.vid.com/640x480/22102012/18703541640x480.jpg",
            provider: 'http',
            width: "100%",
            height: 480,
            controlbar: 'bottom',
                    wmode: 'transparent',
            events: {
                onPlay: function(e) {
                    if (e.oldstate == "BUFFERING")
                        $("#bottomAd").slideDown(); //show bottom ad
                    else
                        $("#pauseAd").fadeOut();    //hide pause ad
                },
                onPause: function(e) {
                    //show pause ad
                    $("#pauseAd").fadeIn();
                    $("#pauseAd").css('left', $("#player").position().left + Math.round($("#player").width()/2 - $("#pauseAd").width()/2));
                    $("#pauseAd").css('top', $("#player").position().top + Math.round($("#player").height()/2 - $("#pauseAd").height()/2));
                }
          }
 
        };
    </script>
... опять много всякой фигни.

нужна Ваша помощь с тем, чтобы выдернуть ссылку на mp4 файл

С Уважением, Антон
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
22.10.2012, 16:53
Ответы с готовыми решениями:

парсер html страницы
Здраствуйте. пытаюсь спарсить исходник одной html страницы мне нужно выдернуть из нее только ссылку на mp4 файл парсер пишу под...

парсер html страницы
Здраствуйте. Пытаюсь написать парсер под android для html страницы, чтобы выдернуть оттуда линк. Выглядит все так: ... фигня ...

Парсер html на java
Пытаюсь написать парсер html. Подсматриваю на другом сайте (del) Согласно данному источнику у меня в импорте должны быть строчки: ...

1
 Аватар для Skipy
2000 / 1427 / 92
Регистрация: 25.11.2010
Сообщений: 3,611
22.10.2012, 17:44
Так она и не должна работать на этом фрагменте. Регулярка писалась под страницу, в которой URL содержится в нескольких экземплярах, в том числе и в фрагменте типа <source src='тут нужный url'/>. Именно из такого куска url и вырезается.

Из фрагмента из этой темы можно вырезать вот таким выражением: (?s)(?i).*file:.*?(http.+?mp4).*.
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
22.10.2012, 17:44
Помогаю со студенческими работами здесь

Многопоточный HTML Парсер
Суть задачи состоит в том чтобы парсить html по ссылке на наличие email-ов, в случае наличия таковых, выводим ссылку и email-ы которые...

Визуальный парсер страницы
Вообщем пишу фреймоврк для автоматического тестирования. Хочу загружать страницу и выделяя мышкой какой-то блок,получать его тэг. Идей пока...

Парсер страницы HTML
Добрый вечер в чём может быть ошибка кто подскажет? unit Unit1; interface uses Windows, Messages, SysUtils, Variants,...

Парсер HTML-страницы после выполнения JS
всем привет... мне нужно парсить html страницу. Конечно вы скажете что тут сложного. Можно например так: HttpWebRequest myRequest =...

Парсер страницы
Добрый день, обращаюсь за помощью к вам. Я уже всю голову сломал, помогите спарсить часть вот этой страницы:...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Обработчик клика мыши в браузере ПК и касания экрана в браузере на мобильном устройстве
8Observer8 02.02.2026
Содержание блога Для начала пошагово создадим рабочий пример для подготовки к экспериментам в браузере ПК и в браузере мобильного устройства. Потом напишем обработчик клика мыши и обработчик. . .
Философия технологии
iceja 01.02.2026
На мой взгляд у человека в технических проектах остается роль генерального директора. Все остальное нейронки делают уже лучше человека. Они не могут нести предпринимательские риски, не могут. . .
SDL3 для Web (WebAssembly): Вывод текста со шрифтом TTF с помощью SDL3_ttf
8Observer8 01.02.2026
Содержание блога В этой пошаговой инструкции создадим с нуля веб-приложение, которое выводит текст в окне браузера. Запустим на Android на локальном сервере. Загрузим Release на бесплатный. . .
SDL3 для Web (WebAssembly): Сборка C/C++ проекта из консоли
8Observer8 30.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
SDL3 для Web (WebAssembly): Установка Emscripten SDK (emsdk) и CMake для сборки C и C++ приложений в Wasm
8Observer8 30.01.2026
Содержание блога Для того чтобы скачать Emscripten SDK (emsdk) необходимо сначало скачать и уставить Git: Install for Windows. Следуйте стандартной процедуре установки Git через установщик. . . .
SDL3 для Android: Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 29.01.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами. Версия v3 была полностью переписана на Си, в. . .
Инструменты COM: Сохранение данный из VARIANT в файл и загрузка из файла в VARIANT
bedvit 28.01.2026
Сохранение базовых типов COM и массивов (одномерных или двухмерных) любой вложенности (деревья) в файл, с возможностью выбора алгоритмов сжатия и шифрования. Часть библиотеки BedvitCOM Использованы. . .
SDL3 для Android: Загрузка PNG с альфа-каналом с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 28.01.2026
Содержание блога SDL3 имеет собственные средства для загрузки и отображения PNG-файлов с альфа-каналом и базовой работы с ними. В этой инструкции используется функция SDL_LoadPNG(), которая. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru