Форум программистов, компьютерный форум, киберфорум
C# .NET
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.64/11: Рейтинг темы: голосов - 11, средняя оценка - 4.64
1 / 1 / 0
Регистрация: 01.12.2011
Сообщений: 16

WebRequest в паралельном коде, меняющий прокси

20.03.2013, 14:24. Показов 2198. Ответов 2
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте, у меня такая проблема: Моё консольное приложение парсит онлайн магазин с большим количеством товаров. Структура парсинга такова:
1)Используя Parallel.For я пробегаю по всем каталогам.
2)В каждом каталоге используя Parallel.For я пробегаю по всем подкаталогам и так рекурсией, пока не дойду до каталога нижнего уровня с товарами.
3)Узнаю количество страниц с товарами в данном каталоге и используя Parallel.For пробегаю по всем страницам , заходя на информацию о каждом продукте.
В каждом каталоге около 30000 товаров.
Проблема в следующем,информация о каталогах сохраняется быстро, но как дело доходит до продуктов, начинаются проблемы. В логе только и вижу Exception of type 'System.OutOfMemoryException' was thrown.
Все запросы у меня делаются из одной функции
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
      public static string GetDataFromUrl(string url, ConcurrentDictionary<string, int> proxy)
    {
        string data = "";
        WebRequest request = null;
        try
        {
            request = WebRequest.Create(url);
            request.Proxy = new WebProxy(proxy.Keys.ElementAt(0), proxy.Values.ElementAt(0));
            request.PreAuthenticate = true;
            request.Credentials = new NetworkCredential("kobyb", "nbzbnbzb");
            request.Proxy.Credentials = new NetworkCredential("kobyb", "nbzbnbzb");
            request.Timeout = 120000;
            ((HttpWebRequest) request).KeepAlive = false;
            ((HttpWebRequest) request).ReadWriteTimeout = 120000*2;
            ServicePointManager.DefaultConnectionLimit = 200;
            if (request != null)
            {
                using (var response = request.GetResponse())
                {
                    using (var stream = response.GetResponseStream())
                    using (var reader = new StreamReader(stream))
                    {
                        data = reader.ReadToEnd();
                        if (string.IsNullOrEmpty(data))
                            return GetDataFromUrl(url, ProxyWorker.NextProxy);
                    }
                    response.Close();
                }
            }
        }
        catch (Exception exception)
        {
            return GetDataFromUrl(url, ProxyWorker.NextProxy);
        }
        return data;
    }
Так же в App.config поставил
XML
1
2
3
4
5
6
7
8
9
    <system.net>
        <connectionManagement>
          <add address="www.contoso.com" maxconnection="200" />
          <add address="*" maxconnection="200" />
        </connectionManagement>
      </system.net>
      <runtime>
        <gcServer enabled="true"/>
      </runtime>
В catch ловятся постоянно ошибки вида Time Out.
В результате база поначалу заполняется быстро, потом скорость заполнения резко снижается , вываливается ошибка Exception of type 'System.OutOfMemoryException' was thrown.
{Function evaluation disabled because a previous function evaluation timed out. You must continue execution to reenable function evaluation.}
Помогите пожалуйста, что мне сделать ?Без паралельности программа работает, но будет выполняться несколько месяцев.Что я делаю не правильно? Если всё дело в 2 гигабайтах и памяти просто реально не хватает, то как можно по другому оптимизировать весь этот процесс? Если я буду пробегать по каталогам обычным циклом и создавать для каждого каталога свой новый процесс, это может мне помочь, или дело вообше не в этом?
1
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
20.03.2013, 14:24
Ответы с готовыми решениями:

WebRequest не отправляются куки при использовании прокси
Здравствуйте, пытаюсь подредактировать следующий код чтобы подставлялась случайная прокся. Результат запроса возвращается нормально, но без...

WebRequest в паралельном коде, меняющий прокси
Здравствуйте, у меня такая проблема: Моё консольное приложение парсит онлайн магазин с большим количеством товаров. Структура парсинга...

Графика в паралельном потоке
Доброго времени суток, уважаемы. Столкнулся с интересной особенностью, перепробовал все - возможно кто либо сталкивался. Создается...

2
Эксперт Java
 Аватар для turbanoff
4094 / 3828 / 745
Регистрация: 18.05.2010
Сообщений: 9,331
Записей в блоге: 12
20.03.2013, 16:49
После вызова этой функции, вы куда строки складываете?
В вашей функции два рекурсивных вызова - замените их на нерекурсивные и считайте кол-во попыток доступа для каждого определенным url-ам.
возможно у вас попадается url, который всегда выдает ошибку, а вы его бесконечно пытаетесь обработать. После 10-й попытки, может стоит его пропустить?
C#
16
if (request != null)
Зачем здесь проверка на null? Если бы request был равен null, то у вас вылезла бы ошибка уже на этой строке:
C#
8
request.Proxy = new WebProxy(proxy.Keys.ElementAt(0), proxy.Values.ElementAt(0));
Странную вы структуру данных придумали для хранения проксей. И получаете элементы из нее с помощью LINQ - зачем?
почему не просто List?

Добавлено через 2 минуты
Да и запустите программу под профайлером, чтобы узнать что жрет больше всего памяти.
Встроенный профайлер есть, например, в VS Ultimate или SharpDevelop
0
1 / 1 / 0
Регистрация: 01.12.2011
Сообщений: 16
17.04.2013, 12:25  [ТС]
Цитата Сообщение от turbanoff Посмотреть сообщение
После вызова этой функции, вы куда строки складываете?
В вашей функции два рекурсивных вызова - замените их на нерекурсивные и считайте кол-во попыток доступа для каждого определенным url-ам.
возможно у вас попадается url, который всегда выдает ошибку, а вы его бесконечно пытаетесь обработать. После 10-й попытки, может стоит его пропустить?
C#
16
if (request != null)
Зачем здесь проверка на null? Если бы request был равен null, то у вас вылезла бы ошибка уже на этой строке:
C#
8
request.Proxy = new WebProxy(proxy.Keys.ElementAt(0), proxy.Values.ElementAt(0));
Странную вы структуру данных придумали для хранения проксей. И получаете элементы из нее с помощью LINQ - зачем?
почему не просто List?

Добавлено через 2 минуты
Да и запустите программу под профайлером, чтобы узнать что жрет больше всего памяти.
Встроенный профайлер есть, например, в VS Ultimate или SharpDevelop
По поводу рекурсии: У меня 10000 проксей для ротейта, так что как я понял остаётся вариант только, что из них много тех которые выдают ошибку. Но я пробовал проверять прокси.., он может быть долгим, но он рабочий и на нём в программе вылетает Time Out.Почему? По поводу Out of Memory-я разобрался, надо поменьше потоков пускать для парсинга и всё нормально работать будет.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
17.04.2013, 12:25
Помогаю со студенческими работами здесь

Как быстро скачивать через прокси с файлообменников или без использования прокси
Доброго времени суток, как вы возможно знаете, для загрузки с облака маил ру или ядаа пользователи из хохляндии вынуждены использовать...

Прокси сервер и прокси порт в android sdk manager
открываю android sdk manager, он пытается подключиться к интернетам, но у него не получается, т. к. Failed to fetch URL...

Цепочка прокси / Как не спалить IP сервера перед прокси
Здравствуйте, такая проблема. Есть свой сервис, который производит автоматический парсинг страниц другого сайта, клиент у себя в...

Написание прокси сервера на сокетах. Проброс сообщений основному серверу и возврат значений через прокси
Есть 3 приложения. 1. Клиент. 2. Прокси сервер. 3. Сервер. Что задумано: Запускается клиент и получает параметры конфигурации с...

При передаче post запроса через прокси сервер в ответ приходят ошибки с прокси сервера
При передаче post запроса через прокси сервер в ответ прилетают ошибки с прокси сервера: &lt;p&gt;&lt;b&gt;Invalid Request&lt;/b&gt;...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
Перемещение выделенных строк ТЧ из одного документа в другой
Maks 30.03.2026
Реализация из решения ниже выполнена на примере нетипового документа "ВыдачаОборудованияНаСпецтехнику" с единственной табличной частью "ОборудованиеИКомплектующие" разработанного в конфигурации КА2. . . .
Functional First Web Framework Suave
DevAlt 30.03.2026
Sauve. IO Апнулись до NET10. Из зависимостей один пакет, работает одинаково хорошо как в режиме проекта так и в интерактивном режиме. из сложностей - чисто функциональный подход. Решил. . .
Автоматическое создание документа при проведении другого документа
Maks 29.03.2026
Реализация из решения ниже выполнена на нетиповых документах, разработанных в конфигурации КА2. Есть нетиповой документ "ЗаявкаНаРемонтСпецтехники" и нетиповой документ "ПланированиеСпецтехники". В. . .
Настройка движения справочника по регистру сведений
Maks 29.03.2026
Решение ниже реализовано на примере нетипового справочника "ТарифыМобильнойСвязи" разработанного в конфигурации КА2, с целью учета корпоративной мобильной связи в коммерческом предприятии. . . .
Автозаполнение реквизита при выборе элемента справочника
Maks 27.03.2026
Программный код из решения ниже на примере нетипового документа "ЗаявкаНаРемонтСпецтехники" разработанного в конфигурации КА2. При выборе "Спецтехники" (Тип Справочник. Спецтехника), заполняется. . .
Сумматор с применением элементов трёх состояний.
Hrethgir 26.03.2026
Тут. https:/ / fips. ru/ EGD/ ab3c85c8-836d-4866-871b-c2f0c5d77fbc Первый документ красиво выглядит, но без схемы. Это конечно не даёт никаких плюсов автору, но тем не менее. . . всё может быть. . .
Автозаполнение реквизитов при создании документа
Maks 26.03.2026
Программный код из решения ниже размещается в модуле объекта документа, в процедуре "ПриСозданииНаСервере". Алгоритм проверки заполнения реализован для исключения перезаписи значения реквизита,. . .
Команды формы и диалоговое окно
Maks 26.03.2026
1. Команда формы "ЗаполнитьЗапчасти". Программный код из решения ниже на примере нетипового документа "ЗаявкаНаРемонтСпецтехники" разработанного в конфигурации КА2. В качестве источника данных. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru