Форум программистов, компьютерный форум, киберфорум
PHP: базы данных
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.83/6: Рейтинг темы: голосов - 6, средняя оценка - 4.83
0 / 0 / 0
Регистрация: 29.06.2012
Сообщений: 9

Разработка подсистемы извлечения знаний из Интернет-источников

29.06.2012, 11:30. Показов 1193. Ответов 9
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Передо мной стоит такая задача "Разработка подсистемы извлечения знаний из Интернет-источников. Первичное накопление знаний для опытной эксплуатации системы" и я даже не знаю, с чего мне начать. Надеюсь на Вашу помощь.
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
29.06.2012, 11:30
Ответы с готовыми решениями:

Разработка подсистемы управления памятью
Нужно разработать подсистему управления памятью с сегментной организацией виртуальной памяти и алгоритмом замещения страниц LRU. Честно...

Разработка функционально-структурной схемы подсистемы
Всем привет! В общем вот какой вопрос: у меня уже есть подсистема БД предприятия " Учет товаров и услуг предприятия N". Мне надо...

Разработка подсистемы обращения к жесткому диску
Собственно моя проблема заключается в том, что я не могу понять, что именно требуется и где найти литературу или статьи на мою проблему (с...

9
 Аватар для crautcher
2450 / 2301 / 597
Регистрация: 27.05.2011
Сообщений: 7,844
29.06.2012, 12:25
это что такое пафосное название грабера ? разжуйте что эта система должна делать простым языком
0
0 / 0 / 0
Регистрация: 29.06.2012
Сообщений: 9
29.06.2012, 12:32  [ТС]
мне надо разработать систему, которая сама бы собирала в Интернете информацию для своей базы знаний
0
 Аватар для crautcher
2450 / 2301 / 597
Регистрация: 27.05.2011
Сообщений: 7,844
29.06.2012, 12:40
это чтото будет чтото вроде бота , она будет ходить по линкам , если на какойто страницы она находит нужную инфу она ее сохраняет

тогда нужно написать
1. система "хождения по сайтам"
2. система распознавания нужной информации
3. парсер
4. система ведения статистики , где уже был где не был , какой домен полезен , какой домен как часто обнавляется
ну естьтественно нужна многопоточность
1
239 / 236 / 43
Регистрация: 16.03.2011
Сообщений: 750
29.06.2012, 12:41
Нужно выбрать источники например сайт wikipedia затем происходит поиск"извлечения знаний".
Существующий системы:
Code
1
2
3
4
5
6
7
8
9
TSIMMIS
WebOQL
FlORID
XWRAP
RoadRunner
Lixto
RAPIER
SRV
WHISK
Вложения
Тип файла: doc 0-1-6.doc (71.5 Кб, 14 просмотров)
1
0 / 0 / 0
Регистрация: 29.06.2012
Сообщений: 9
29.06.2012, 13:30  [ТС]
Я никогда не работала с подобными системами, допустим источником будет являться сайт microsoft, как будет происходить поиск "извлечения знаний"?

Добавлено через 23 минуты
Цитата Сообщение от r36 Посмотреть сообщение
Нужно выбрать источники например сайт wikipedia затем происходит поиск"извлечения знаний".
Существующий системы:
Code
1
2
3
4
5
6
7
8
9
TSIMMIS
WebOQL
FlORID
XWRAP
RoadRunner
Lixto
RAPIER
SRV
WHISK
я не знаю, как мне это прописать, с чего начинать скрипт
0
 Аватар для crautcher
2450 / 2301 / 597
Регистрация: 27.05.2011
Сообщений: 7,844
29.06.2012, 13:47
вы хотите на чистом пхп писать или можно подключить немного шела ? просто если с шелом то можно увеличить скороть сбра инфы в 10тки раз
0
0 / 0 / 0
Регистрация: 29.06.2012
Сообщений: 9
29.06.2012, 13:49  [ТС]
Цитата Сообщение от crautcher Посмотреть сообщение
вы хотите на чистом пхп писать или можно подключить немного шела ? просто если с шелом то можно увеличить скороть сбра инфы в 10тки раз
изначально хотела писать на пхп, просто о шелл даже не подумала
0
239 / 236 / 43
Регистрация: 16.03.2011
Сообщений: 750
29.06.2012, 13:50
как будет происходить поиск "извлечения знаний"
Получаем страницу через ф-и file_get_contents .. curl затем парсинг preg_match_all
Api Wikipedia
Поисковое API для PHP
1
 Аватар для crautcher
2450 / 2301 / 597
Регистрация: 27.05.2011
Сообщений: 7,844
29.06.2012, 15:22
Цитата Сообщение от MissSMITT Посмотреть сообщение
значально хотела писать на пхп, просто о шелл даже не подумала
ну так я не говорю о чистом шеле , он просто нам поможет
1) из шела можно вызывать пхп скрипты:
PHP
1
<? echo 'test';
Bash
1
php run.php
test
также можно сохранить результат исполенения и оперировать им
Bash
1
2
3
4
data=`php run.php`
echo $data
echo $data
echo $data
test
test
test

и самое главное достоитнство это фоновой режим
можно передовать пхп скриптам данные , они будут хранится в массиве argv
PHP
1
2
<?
print_r($argv);
Bash
1
2
data=`php run.php one two cow`
echo $data
Array ( [0] => run.php [1] => one [2] => two [3] => cow )
мы может запустить одновременно много потоков одного скрипта
PHP
1
2
3
4
<?
echo 'stream' . $argv[0] .' starts in' . date('I:s');
sleep(5);
echo ' stream' . $argv[0] .' ends in' . date('I:s');
Bash
1
2
3
4
5
6
7
8
9
10
#!/bin/sh
count=5
dir="/var/www/absolux/test/"
php_command="/usr/bin/php -q"
 
i=1
while [ $i -le $count ]; do
 ${php_command} ${dir}run.php ${i} &
i=$(($i + 1))
done
Bash
1
2
3
dkd@crautcher-desktop:/var/www/absolux/test$ sh test.sh 
stream3 starts in1:20      stream1 starts in1:20      stream4 starts in1:20      stream2 starts in1:20      stream5 starts in1:20       
stream3 ends in1:25    stream1 ends in1:25    stream4 ends in1:25    stream2 ends in1:25    stream5 ends in1:25
они выполнились одновременно , это значит можно сделать универсальный обработчик на пхп , на шеле задавать через argv , что ему парсить и одновременно могут парсить 40 скриптом ато и больше - вместо одного
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
29.06.2012, 15:22
Помогаю со студенческими работами здесь

разработка системы проверки знаний
добрый день! мне очень нужна помощь специалиста. я занялся разработкой системы тестирования знаний. не буду скрывать основу я взял из...

Разработка базы знаний Библиотека
написать на prolog

Разработка алгоритма системы контроля знаний
Как заполнить тест случайными заданиями по определенным темам? Единственный вариант над которым я задумался - это вывести список всех...

Разработка программного модуля для тестирования знаний
Разработка программного модуля для тестирования знаний. Программный модуль должен обеспечивать возможность изменения вопросов и ответов. В...

Разработка программы тестирования знаний таблицы умножения для начальных классов
Разработка программы тестирования знаний таблицы умножения для начальных классов?


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
10
Ответ Создать тему
Новые блоги и статьи
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка. Рецензия / Мнение/ Перевод https:/ / **********/ gallery/ thinkpad-x220-tablet-porn-gzoEAjs . . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru