Форум программистов, компьютерный форум, киберфорум
C# .NET
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.69/13: Рейтинг темы: голосов - 13, средняя оценка - 4.69
 Аватар для Mr_Ser_Win
45 / 44 / 7
Регистрация: 15.10.2008
Сообщений: 320

Анализ текстового файла

14.05.2010, 14:16. Показов 2540. Ответов 8
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Прривет. имеется текстовый файл, который представляет из себя исходный код страницы сайта. Проанализировав его мне надо извлечь все ссылки имеющиеся там. Как это можно сделать? если можно с примерами кода.
Заранее спасибо

Добавлено через 3 часа 47 минут
В Java испльзуется replaceAll, в php strip_tags и многое другое.
В C# нашел такую вещь Replace("<(\n)+?>",""). но почему то не помогло.
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
14.05.2010, 14:16
Ответы с готовыми решениями:

Анализ текстового файла
Текстовый файлик имеет содержимое {Type=&quot;TypeA&quot; Name=&quot;Объект1&quot; { Type=&quot;TypeB&quot; Name=&quot;Объект2&quot; Url=&quot;http://www.ya.ru/&quot; ...

Анализ текстового файла и отображение в виде графической диаграммы, количества слов, в зависимости от их длины
Добрый день Всем! Нужна помощь в построение диаграмм. Нужно, чтоб программа анализировала текстовый файл и отображала в виде графической...

Анализ текстового файла
Здравствуйте! Пытаюсь проанализировать текстовый файл в pycharm. Код написал. Запускаю. В консоли программы пусто. Текст из...

8
Эксперт С++
 Аватар для Maxim Prishchepa
1936 / 1048 / 109
Регистрация: 29.03.2010
Сообщений: 3,167
14.05.2010, 17:18
Цитата Сообщение от Mr_Ser_Win Посмотреть сообщение
Прривет. имеется текстовый файл, который представляет из себя исходный код страницы сайта. Проанализировав его мне надо извлечь все ссылки имеющиеся там. Как это можно сделать? если можно с примерами кода.
Заранее спасибо

Добавлено через 3 часа 47 минут
В Java испльзуется replaceAll, в php strip_tags и многое другое.
В C# нашел такую вещь Replace("<(\n)+?>",""). но почему то не помогло.
C#
1
2
3
4
5
6
7
8
9
string str = "<\\s*a\\s+href\\s*=\\s*(?<links>[\\d\\w\\/_?&\".:]*)\\s*>(?<titles>[\\w\\d\\s]*)<\\s*/\\s*a\\s*>";
            Regex rx = new Regex(str);
            MatchCollection mc = rx.Matches(textBox1.Text);
            label1.Text = string.Empty;
            for(int i=0;i<mc.Count;i++)
            {
                label1.Text += string.Format("link is: {0}; title is: {1}\n", mc[i].Groups["links"].Value, mc[i].Groups["titles"].Value);
 
            }
Добавьте на форму TextBox в который вводите линки в формате: <a href =somelink>titleLink</a>; добавьте Lable в который собственно будет выводиться результат разбора текста и добавьте кнопку, по нажатию которой и будет выполняться написанный выше код ;-). Удачи!
0
 Аватар для Mr_Ser_Win
45 / 44 / 7
Регистрация: 15.10.2008
Сообщений: 320
14.05.2010, 17:33  [ТС]
l_a_m, я не совсем понял, он будет искать введенную мной ссылку или что? мне надо найти абсолютно все ссылки и затем сохранить в какое нибудь хранилище (база данных, но вопрос не в этом).
0
Эксперт С++
 Аватар для Maxim Prishchepa
1936 / 1048 / 109
Регистрация: 29.03.2010
Сообщений: 3,167
14.05.2010, 17:38
ну собственно давай уже доделаем до конца твой проект, что ли... :-)
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
FileInfo fi = new FileInfo("PATH-to-html-file");
if (fi.Exists)
{
   FileInfo resultFile = new FileInfo("PATH-to-result-file");
   FileStream fileWriter;
   if (!resultFile.Exists)
      resultFile.Create();
   string str = "<\\s*a\\s+href\\s*=\\s*\"?(?<links>[\\d\\w\\/_?&.:]*)\"?\\s*>(?<titles>[\\w\\d\\s]*)<\\s*/\\s*a\\s*>";
   Regex rx = new Regex(str);
   MatchCollection mc = rx.Matches(fi.OpenText().ReadToEnd());               
   for (int i = 0; i < mc.Count; i++)
      resultFile.AppendText().WriteLine(string.Format("link is: {0}; title is: {1};", mc[i].Groups["links"].Value, mc[i].Groups["titles"].Value));
}
На выходе вы получите текстовый файл, в котором будут строки в формате:
link is: http://google.com; title is: ссылка на гугл;
link is: http://bing.com; title is: ссылка на бинг;
и т.д.
естественно при условии, что у вас где-то в вашем исходном коде, есть такой текст: <a href="http://google.com">ссылка на гугл</a> и т.д.

ЗЫ: используйте регулярное выражение из этого примера, в предыдущем оно немножко не корректное, я только что заметил и поправил
ЗЗЫ: с Вас 100грам и пончик ;-)
2
 Аватар для Mr_Ser_Win
45 / 44 / 7
Регистрация: 15.10.2008
Сообщений: 320
14.05.2010, 18:15  [ТС]
l_a_m, как мне тебя найти, чтобы передать это все ? :-)

Добавлено через 16 минут
Еще один вопрос, если не против.
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
var fi = new FileInfo("C:\\spider\\kedr.kedr\\72568.txt");
            if (fi.Exists)
            {
                var resultFile = new FileInfo("C:\\spider\\kedr.kedr\\72568_.txt");
                FileStream fileWriter;
                if (!resultFile.Exists)
                {
                    resultFile.Create();
                }
 
                const string str = "<\\s*a\\s+href\\s*=\\s*\"?(?<links>[\\d\\w\\/_?&.:]*)\"?\\s*>(?<titles>[\\w\\d\\s]*)<\\s*/\\s*a\\s*>";
                var rx = new Regex(str);
 
                MatchCollection mc = rx.Matches(fi.OpenText().ReadToEnd());
                for (int i = 0; i < mc.Count; i++)
                {
                    resultFile.AppendText().WriteLine(string.Format("link is: {0}; title is: {1};", mc[i].Groups["links"].Value, mc[i].Groups["titles"].Value));
                }
вот он код. но он не внес никаких изменений во второй файл. почему не подскажеш?
обрабатываемый файл я прикрепил
0
 Аватар для Mr_Ser_Win
45 / 44 / 7
Регистрация: 15.10.2008
Сообщений: 320
14.05.2010, 18:17  [ТС]
вот файл в архиве
Вложения
Тип файла: rar 72568.rar (15.4 Кб, 24 просмотров)
0
 Аватар для Mr_Ser_Win
45 / 44 / 7
Регистрация: 15.10.2008
Сообщений: 320
14.05.2010, 19:00  [ТС]
l_a_m, у меня не заходит в
C#
1
2
3
4
for (int i = 0; i < mc.Count; i++)
                {
                    resultFile.AppendText().WriteLine(string.Format("link is: {0}; title is: {1};", mc[i].Groups["links"].Value, mc[i].Groups["titles"].Value));
                }
потому что mc.Count == 0;

Добавлено через 32 минуты
l_a_m, изменил искомый формат
C#
1
const string str = "<a\\s+href=['\"](\\S+)['\"]";
и count увеличился, т.е. он чтото нашел.
теперь в этом цикле первый раз проходит нормально, а последующие разы не проходит, жалуется на то что файл уже используется
C#
1
2
3
4
for (int i = 0; i < mc.Count; i++)
                {
                    resultFile.AppendText().WriteLine(string.Format("{0};", mc[i].Groups["links"].Value));
                }
0
Эксперт С++
 Аватар для Maxim Prishchepa
1936 / 1048 / 109
Регистрация: 29.03.2010
Сообщений: 3,167
15.05.2010, 23:24
посмотрел я Ваш файл, попробуйте использовать такое выражение:
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
var fi = new FileInfo("C:\\spider\\kedr.kedr\\72568.txt");
if (fi.Exists)
{
  var resultFile = new FileInfo("C:\\spider\\kedr.kedr\\72568_.txt");
  FileStream fileWriter;
  if (!resultFile.Exists)
  {
    resultFile.Create();
  }
  const string str = "href\\s*=\\s*["'](?<links>http://[\\w\\d\\.\\\\/=&?]*)";
  var rx = new Regex(str);
  MatchCollection mc = rx.Matches(fi.OpenText().ReadToEnd());
  for (int i = 0; i < mc.Count; i++)
  {
    resultFile.AppendText().WriteLine(string.Format("{0}", mc[i].Groups["links"].Value));
  }
0
 Аватар для Mr_Ser_Win
45 / 44 / 7
Регистрация: 15.10.2008
Сообщений: 320
16.05.2010, 11:00  [ТС]
l_a_m, видно все же это не правильная маска("href\\s*=\\s*["'](?<links>http://[\\w\\d\\.\\\\/=&?]*)), так он ничего не находит. и соответственно ничего не записывает.

Добавлено через 32 минуты
Все тема закрыта. сделал вот таким вот образом
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
var resultFile = new FileInfo(@"C:\\72568_.txt");
                if (!resultFile.Exists)
                {
                    resultFile.Create();
                }
 
                const string str = "<a\\s+href=['\"](\\S+)['\"]";
                var rx = new Regex(str, RegexOptions.IgnoreCase | RegexOptions.Singleline);
 
                MatchCollection mc = rx.Matches(fi.OpenText().ReadToEnd());
                foreach (Match m in mc)
                {
                    urls.Add(m.Result("$1"));
                }
 
                for (int i = 0; i < mc.Count; i++)
                {
                    using (StreamWriter sw = resultFile.AppendText())
                    {
                        sw.WriteLine(string.Format("{0}", mc[i].Groups.SyncRoot));
                    }
                }
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
16.05.2010, 11:00
Помогаю со студенческими работами здесь

Анализ текстового файла!
Вот дали задачу, никак не могу решить! Вообщем надо Написать програму которая анализирует текстовый файл, который содержит в себе...

Анализ текстового файла
я скажем так программист в ковычках и препад задал задание до 15 числа сделать текстовый анализ файлов в делфи и я нефига не вдупляю...

Анализ текстового файла
Доброго времени суток. Помогите начинающему программисту, недавно столкнулся с проблемой: - нужно сравнивать строчку в text.txt и...

Частотный анализ текстового файла
частотный анализ текстового файла. Напишите программу, определяющую частоту встречающихся символов в текстовом файле. По этим данным...

Нужно провести анализ текстового файла
Надо написать процедуру, которая бы искала в текстовом файле заданные слова, а также их количество. Буду очень признателен, если кто-нибудь...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
9
Ответ Создать тему
Новые блоги и статьи
Отправка уведомления на почту при изменении наименования справочника
Maks 24.03.2026
Программная отправка письма электронной почты на примере изменения наименования справочника "Склады" в конфигурации БП3. Перед реализацией необходимо выполнить настройку системной учетной записи. . .
модель ЗдравоСохранения 5. Меньше увольнений- больше дохода!
anaschu 24.03.2026
Теперь система здравосохранения уменьшает количество увольнений. 9TO2GP2bpX4 a42b81fb172ffc12ca589c7898261ccb/ https:/ / rutube. ru/ video/ a42b81fb172ffc12ca589c7898261ccb/ Слева синяя линия -. . .
Midnight Chicago Blues
kumehtar 24.03.2026
Такой Midnight Chicago Blues, знаешь?. . Когда вечерние улицы становятся ночными, а ты не можешь уснуть. Ты идёшь в любимый старый бар, и бармен наливает тебе виски. Ты смотришь на пролетающие. . .
Контроль уникальности заводского номера - вариант №2
Maks 24.03.2026
В отличие от предыдущего варианта добавлено прерывание циклов, также добавлены новые переменные для сохранения контекста ошибки перед прерыванием цикла: Процедура ПередЗаписью(Отказ, РежимЗаписи,. . .
SDL3 для Desktop (MinGW): Вывод текста со шрифтом TTF с помощью библиотеки SDL3_ttf на Си и C++
8Observer8 24.03.2026
Содержание блога Финальные проекты на Си и на C++: finish-text-sdl3-c. zip finish-text-sdl3-cpp. zip
Жизнь в неопределённости
kumehtar 23.03.2026
Жизнь — это постоянное существование в неопределённости. Например, даже если у тебя есть список дел, невозможно дойти до точки, где всё окончательно завершено и больше ничего не осталось. В принципе,. . .
Модель здравоСохранения: работники работают быстрее после её введения.
anaschu 23.03.2026
geJalZw1fLo Корпорация до введения программа здравоохранения имела много невыполненных работниками заданий, после введения программы количество заданий выросло. Но на выплатах по больничным это. . .
Контроль уникальности заводского номера - вариант №1
Maks 23.03.2026
Алгоритм контроля уникальности заводского (или серийного) номера на примере документа выдачи шин для спецтехники с табличной частью в конфигурации КА2. Данные берутся из регистра сведений, по. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru