0 / 0 / 0
Регистрация: 29.07.2016
Сообщений: 3

Регулярные выражения. Найти URLs в тексте

08.08.2016, 03:22. Показов 2748. Ответов 2
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Всем привет.

Задача такова:
Есть текст, необходимо пропарсить его с помощью регулярных выражений и найти все ссылки (т.е. УРЛы). Написал такой паттерн:

Java
1
Matcher m = Pattern.compile("\\s*https*://[.a-zA-Z0-9]+/*([.a-zA-Z0-9-_/?=&]*/*)").matcher(str);
Ок, работает (во всяком случае в моем тексте с моими УРЛами). Но допустим, что мне надо, что бы УРЛы обрезались, если у них более 2-х вложенностей (сам домен не учитываем).

Например:
В тексте есть УРЛ: домен/вложеннсть1/вложенность2/вложенность3/
Необходимо, что бы мы получили обрезанный УРЛ: домен/вложеннсть1/вложенность2/

Пробовал сделать так:

Java
1
Matcher m = Pattern.compile("\\s*https*://[.a-zA-Z0-9]+/*([.a-zA-Z0-9-_/?=&]*/*){0,2}").matcher(str);
т.е. думал, что квантификатор {0,2} обрежет УРЛ, если в нем более 2-х вложенностей. Но на выходе изменений я не обнаружил.

Вопросы:
1. Могу ли я как-то резать УРЛы (в данном случае) с помощью регулярных выражений, или же это надо напрямую "резать стринг" ?
2. Квантификатор {0,2} в данном случае не сработал. Значит я ошибка в логике выражения. Что в данном случае, тогда он означает?

Буду благодарен за помощь.
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
08.08.2016, 03:22
Ответы с готовыми решениями:

Регулярные выражения: найти количество операторов присваивания в тексте программы
Я не могу понять как работают регулярные выражения и как с их помощью можно найти количество операторов например в коде:public class angle...

Регулярные выражения - поиск абзацев в тексте
Привет всем! Помогите разбить рандомный текст на абзацы. Вот пример моего решения, но там проблема: должно вывести 3 фрагмента текста но...

Заменить, используя регулярные выражения, значения в тексте
Доброго времени суток! как с помощью регулярных выражений заменить все записи вида list.add("somevalue1"); ...

2
Эксперт Java
3639 / 2971 / 918
Регистрация: 05.07.2013
Сообщений: 14,220
08.08.2016, 10:00
https:\/\/[^\/]*([\/][a-z]){0,2}
1
502 / 348 / 134
Регистрация: 14.06.2016
Сообщений: 669
08.08.2016, 16:36
Java
1
2
3
4
Matcher mtch = Pattern.compile("https?://[^/]+/(([^/]+/){2}|.*?(?=\\s|$))").matcher("https://technet.microsoft.com/ru-ru/library/cc627458(v=sql.120).aspx");
        while(mtch.find()) System.out.println(mtch.group());
        mtch.reset("https://technet.microsoft.com/cc627458(v=sql.120).aspx");
        while(mtch.find()) System.out.println(mtch.group());
На выходе:
Bash
1
2
"https://technet.microsoft.com/ru-ru/library/"
"https://technet.microsoft.com/cc627458(v=sql.120).aspx"
Нет наверху примера твоих URL (
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
08.08.2016, 16:36
Помогаю со студенческими работами здесь

Регулярные выражения. Найти доменное имя в тексте
Здравствуйте! Хочу найти доменное имя в тексте. Вот моя неудачная попытка, подскажите ошибки, кто сможет. ...

Регулярные выражения: найти в тексте e-mail адреса
К сожалению пока нормально в регулярных выражениях не разобрался использую уже готовые Нужно найти в файле e-mail-ы Использую...

Регулярные выражения. Как найти все различные слова в тексте?
как найти все различные слова в тексте?

Поиск даты в тексте, регулярные выражения
Ребят, никак не могу разобраться с регулярками, хочу в строке найти числа вида 12 12 12 (дата), и если нету между ними точек то поставить...

Регулярные выражения - поиск в русском тексте
Доброй ночи Пытаюсь произвести поиск, с помощью регулярного выражения, в русском тексте use locale; use POSIX qw(locale_h); my...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Опции темы

Новые блоги и статьи
Валидация и контроль данных табличной части документа перед записью
Maks 22.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в КА2. Задача: контроль и валидация данных табличной части документа перед записью с учетом регламента компании. . .
Отчёт о затраченных материалах за определенный период с макетом печатной формы
Maks 21.04.2026
Отчёт из решения ниже размещён в конфигурации КА2. Задача: разработка отчёта по затраченным материалам за определённый период, с возможностью вывода печатной формы отчёта с шапкой и подвалом. В. . .
Отчёт о спецтехнике находящейся в ремонте
Maks 20.04.2026
Отчёт из решения ниже размещен в конфигурации КА2. Задача: отобразить спецтехнику, которая на данный момент находится в ремонте. Есть нетиповой документ "Заявка на ремонт спецтехники" который. . .
Памятка для бота и "визитка" для читателей "Semantic Universe Layer (Слой семантической вселенной)"
Hrethgir 19.04.2026
Сгенерировано для краткого описания по случаю сборки и компиляции скелета серверного приложения. И пусть после этого скажут, что статьи сгенерированные AI - туфта и не интересно. И это не реклама -. . .
Запрет удаления строк ТЧ документа при определённом условии
Maks 19.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "Аккумуляторы", разработанного в конфигурации КА2. У данного документа есть ТЧ, в которой в зависимости от прав доступа. . .
Модель заражения группы наркоманов
alhaos 17.04.2026
Условия задачи сформулированы тут Суть: - Группа наркоманов из 10 человек. - Только один инфицирован ВИЧ. - Колются одной иглой. - Колются раз в день. - Колются последовательно через. . .
Мысли в слух. Про "навсегда".
kumehtar 16.04.2026
Подумалось тут, что наверное очень глупо использовать во всяких своих установках понятие "навсегда". Это очень сильное понятие, и я только начинаю понимать край его смысла, не смотря на то что давно. . .
My Business CRM
MaGz GoLd 16.04.2026
Всем привет, недавно возникла потребность создать CRM, для личных нужд. Собственно программа предоставляет из себя базу данных клиентов, в которой можно фиксировать звонки, стадии сделки, а также. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru