Форум программистов, компьютерный форум, киберфорум
C# .NET
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 5.00/7: Рейтинг темы: голосов - 7, средняя оценка - 5.00
0 / 0 / 0
Регистрация: 14.02.2013
Сообщений: 7

Парсинг страницы

09.03.2013, 20:24. Показов 1510. Ответов 6
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Вообщем есть ссылка http://vk.com/wall-"+ ID группы/+"?own=1
Пример http://vk.com/wall-1234567?own=1
C#
1
2
3
4
5
6
7
8
9
            WebRequest webReq = WebRequest.CreateHttp("http://vk.com/wall-" + Convert.ToInt32(textBox1.Text) + "?own=1");
            WebResponse webRes = webReq.GetResponse();
            Stream st = webRes.GetResponseStream();
            StreamReader sr = new StreamReader(st);
            StreamWriter sw = new StreamWriter("data.txt");
            string response = sr.ReadToEnd();
            sw.WriteLine(response);
            sr.Close();
            sw.Close();
Но он, почему то, парсит не всю страницу.... А только ее часть( Подскажите, в чем проблема?
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
09.03.2013, 20:24
Ответы с готовыми решениями:

Парсинг страницы
Я не очень опытен, поэтому извиняйте, если написал полнейший бред. Есть некая страница. С неё нужно получить 3 значения, изменяющихся...

Парсинг страницы
Помоги пожалуйста, как правильно спарсить информацию (В красной области). Страница сайта:...

Парсинг страницы с вебсокетом
Есть страница, которая как я понял грузит контент через вебсокеты (адрес вида wss://) И мне необходимо ее распарсить. Как я понял...

6
169 / 132 / 29
Регистрация: 16.02.2013
Сообщений: 867
09.03.2013, 21:10
как не все? первую страницу оно у тебя должнл парсить полюбому. а дальше идет выполнение скрипта для получения след. страницы - ее ты не получишь, не выполнив его , или не с эмулировав его работу.

Добавлено через 12 минут
посмотрел - действительно не парсит полностью. тут одно обьяснение - вк блоекирует доступ, если не выполняется javascript. это защита от ботов (?) . короче - отключи скрипты в браузере, и посмотри - тоже самое будет. хотя я это обошел, но не буду говорить - как. сам помозгуй
1
0 / 0 / 0
Регистрация: 14.02.2013
Сообщений: 7
10.03.2013, 12:44  [ТС]
Winhttp22, через моби версию наверно?
0
169 / 132 / 29
Регистрация: 16.02.2013
Сообщений: 867
10.03.2013, 14:18
Ghoster666, да
0
213 / 139 / 8
Регистрация: 18.08.2010
Сообщений: 1,018
11.03.2013, 18:35
Ghoster666, посмтрите API контакта. Возможно там есть нужная вам функция. А парсить код напрямую - это очень неблагородное и ненадежное дело... Причин, почему стоит отказаться от парсинга, много. Вот некоторые:
1. Внутреннее устройство страниц Вконтакта часто меняется, так как админы довольно часто модернизируют сайт и вносят изменения. Часто оно меняется даже тогда, когда для обычного пользователя эта страница выглядит точно также. И вам придется каждый раз переделывать ваше приложение, чтобы оно оставалось рабочим.
2. Это нагрузки на сервера, и потому это не одобряется админами и применяются меры, чтобы парсинг был невозможен (вот вы с такой проблемой уже столкнулись)

Я это говорю, так как сам с этим сталкивался в своем приложении для Вк. Время от времени мое приложение валится, так как админам захотелось изменить структуру страницы. И мне каждый раз приходится изучать структуру новой страницы и обновлять алгоритм парсинга соответственно. Сейчас понемногу перевожу программу на API, так как этих всех проблем там нет, и трафика потребляется значительно меньше
0
169 / 132 / 29
Регистрация: 16.02.2013
Сообщений: 867
11.03.2013, 18:53
Tolias28, насчет изменений - согласен, сам был "попался" , когда приложение не работало потому, что был изменён исходник. а вот насчет нагрузок на сервера - не согласен. какие нагрузки? нагрузка лишь будет тогда, когда ты будешь парсить много страниц, но от этого в вк вроде бы есть защита - банит?
вк просто делает все для защиты от ботов, хотя версия мобильная существует - там парсишь сколько душе влезет.
а апи не всегда лучшее решение, мне например не нравится почему то да и есть вк бот, который работает без всяких апи - вот им скажите об апи
0
213 / 139 / 8
Регистрация: 18.08.2010
Сообщений: 1,018
11.03.2013, 19:03
Цитата Сообщение от Winhttp22 Посмотреть сообщение
а вот насчет нагрузок на сервера - не согласен. какие нагрузки?
ну да. Тут уже больше зависит, для чего парсится... Просто у меня была программа, где я парсил страницу каждые 30 секунд, чтобы получать актуальную информацию. И делал при том это на сервере через PHP. Так меня хостер забанил)) После обращения в техподдержку выяснилось, что админы Вк подали жалобу на мой хостинг, что идут большие нагрузки с моего сайта. Пришлось искать абузоустойчивый хостинг

Добавлено через 1 минуту
Цитата Сообщение от Winhttp22 Посмотреть сообщение
да и есть вк бот, который работает без всяких апи - вот им скажите об апи
Думаю, разработчики этой программы с радостью использовали бы API, если бы все нужные им функции там были.. Уверен, не используют его они только по этой причине.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
11.03.2013, 19:03
Помогаю со студенческими работами здесь

Парсинг интернет страницы
Доброго времени суток! Я начал коллекционировать различную пивную атрибутику, у меня есть куча ссылок на пивоварни Германии, как спарсить...

Парсинг страницы. Ошибка 401
Задача: получить в Response данные из таблицы на этой странице: ссылка. Посмотрел все запросы при загрузке сайта и нужен, похоже,...

Некорректный парсинг html страницы
Добрых времени суток. По этому адресу тык нужно выбрать все что находится в теге <div class="market_listing_buy_button">...

Парсинг изображения со страницы сайта
Пытаюсь вывести изображение со страницы сайта в форму программы. Трудность заключается в том, что нет точной ссылки на изображение и оно...

Парсинг html кода страницы
Допустим есть некая страница, у которой html <head> <body> <b>ololo</b> </body> </head> мне нужно, поставить if loop...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Новые блоги и статьи
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru