С Новым годом! Форум программистов, компьютерный форум, киберфорум
PHP
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
 
Рейтинг 5.00/11: Рейтинг темы: голосов - 11, средняя оценка - 5.00
0 / 0 / 0
Регистрация: 05.02.2013
Сообщений: 9

Поделитесь алгоритмами для обработки текста

07.02.2013, 11:45. Показов 2313. Ответов 21
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Поделитесь пожалста простыми алгоритмами для обработки текста.
Хочу опубликовать на своем сайте.
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
07.02.2013, 11:45
Ответы с готовыми решениями:

Поделитесь утилитой обработки базы
Может кто делал утилитку, которая делает перебор объектов и полей всех справочников и документов? Мне конкретно нужно пообрезать пробелы...

ИИ для обработки текста
здравствуйте вопросов 2 1 подскажите ссылки на онлайн площадки обработки тестов 2 как ИИ определяет, например что речь идёт о живом...

Скрипт для обработки текста
Добрый вечер, форумчане. Приветствую. Сижу уже третьи сутки, никак не могу придумать скрипт обработки нижеуказанного кода, с целью ...

21
 Аватар для daruwanov
77 / 58 / 8
Регистрация: 10.03.2011
Сообщений: 354
07.02.2013, 11:56

Не по теме:


Ну для начала, первый слой можно наждачкой(нулевочкой) счистить, потом напильничком, а вот в самом конце когда когда текст уже почти обработан вскрыть лаком, и на пару часов в печь.



Что именно вы имеете ввиду под обработкой текста? Для самых простых "махинаций" с текстом есть множество стандартных функций в PHP.
0
0 / 0 / 0
Регистрация: 05.02.2013
Сообщений: 9
07.02.2013, 15:03  [ТС]
К примеру, подсчет количества глаголов в тексте. Или удаление матерных слов.
Или переработка текста в стиле 19 века. Или перевод текста с русского на полесский диалект украинского.
Да много чего...
0
508 / 358 / 13
Регистрация: 12.03.2012
Сообщений: 1,896
08.02.2013, 07:36
MihailSmirnov, алгоритм mb_strlen просмтаривает строку и находит ее длину.
Достаточно?
0
0 / 0 / 0
Регистрация: 05.02.2013
Сообщений: 9
08.02.2013, 13:02  [ТС]
Маловато будет.
0
775 / 444 / 93
Регистрация: 24.10.2012
Сообщений: 3,240
Записей в блоге: 5
08.02.2013, 14:20
string md5 ( string str [, bool raw_output] )
Вычисляет MD5 хэш строки str используя алгоритм MD5 RSA Data Security, Inc. и возвращает этот хэш. Хэш представляет собой 32-значное шестнадцатеричное число. Если необязательный аргумент raw_output имеет значение TRUE, то возвращается бинарная строка из 16 символов.
string soundex ( string str )
Возвращает ключ soundex для строки str. Двум словам, имеющим схожее произношение, соответствует один и тот же ключ soundex. Это свойство может быть использовано, например, при поиске по базе даных, когда известно произношение слова и неизвестно его написание
int levenshtein ( string str1, string str2 )
Функция возвращает расстояние Левенштейна между двумя строками. Расстояние Левенштейна - это минимальное количество вставок, замен и удалений символов, необходимое для преобразования str1 в str2
0
0 / 0 / 0
Регистрация: 05.02.2013
Сообщений: 9
09.02.2013, 11:43  [ТС]
Я имел в виду алгоритмы собственной разработки, с открытым кодом.
0
508 / 358 / 13
Регистрация: 12.03.2012
Сообщений: 1,896
09.02.2013, 14:03
MihailSmirnov, а ты можешь внятно объяснить, что конкретно ты хочешь?
0
0 / 0 / 0
Регистрация: 05.02.2013
Сообщений: 9
10.02.2013, 12:55  [ТС]
Попытаюсь.
Есть такие люди, программисты называются.
Некоторые из них умеют писать программы, свои, оригинальные.
Вот я и пытаюсь найти таковых.
0
 Аватар для crautcher
2450 / 2301 / 597
Регистрация: 27.05.2011
Сообщений: 7,844
10.02.2013, 13:42
Цитата Сообщение от MihailSmirnov Посмотреть сообщение
Есть такие люди, программисты называются.
Некоторые из них умеют писать программы, свои, оригинальные.
Вот я и пытаюсь найти таковых.
Если у тебя такой фетиш по профессии программист иди на сайт знакомств , а тут люди задают конкретные вопросы и получают на них конкретные ответы .
0
 Аватар для daruwanov
77 / 58 / 8
Регистрация: 10.03.2011
Сообщений: 354
10.02.2013, 15:06
Создание свои решения. И все.
0
508 / 358 / 13
Регистрация: 12.03.2012
Сообщений: 1,896
10.02.2013, 15:45
Чтобы "создание свои решения" надо сначала "поставление свои задачи".
Нельзя получить первое без второго.
Второго пока от тебя не увидели.
2
 Аватар для daruwanov
77 / 58 / 8
Регистрация: 10.03.2011
Сообщений: 354
10.02.2013, 17:07

Не по теме:

P.S сори за опечатку - там было создания своих решений - с телефона, что то напутал автокорректор.
P.P.S -

Второго пока от тебя не увидели.
- по контексту показалось - что адресовано мне - ну так , и ни я ищу решений в этой теме.



Или удаление матерных слов.
1)Открываем Всемирный словарь международных матерных слов имени Автора Неизвенского. Составляем базу этих самых матерных слов. А дальше анализируете текст по словам. и сравниваете с матами.
нужно учесть что могут попадаться слова в таком формате ХХХ- Это мат, но хххХХХххххх - это может являться часть слова и не быть матом, но в тоде время я как пользователь смогу написать так, ХХХххххх просто матерное слово слитно с нематерным.

тут нужно анализировать текст. как в прочем и для каждой вашей задачи. А это процесс трудоемкий(для качественного отбора). так что думаю - из тех кто писал , такое для своих нужд- просто так на обозрение выкладывать не будет.

Пытайтесь сами написать - с отдельными моментами тут помочь - помогут.
0
508 / 358 / 13
Регистрация: 12.03.2012
Сообщений: 1,896
10.02.2013, 17:33
Цитата Сообщение от daruwanov Посмотреть сообщение
1)Открываем Всемирный словарь международных матерных слов имени Автора Неизвенского. Составляем базу этих самых матерных слов. А дальше анализируете текст по словам. и сравниваете с матами.
нужно учесть что могут попадаться слова в таком формате ХХХ- Это мат, но хххХХХххххх - это может являться часть слова и не быть матом, но в тоде время я как пользователь смогу написать так, ХХХххххх просто матерное слово слитно с нематерным.
тут нужно анализировать текст. как в прочем и для каждой вашей задачи. А это процесс трудоемкий(для качественного отбора). так что думаю - из тех кто писал , такое для своих нужд- просто так на обозрение выкладывать не будет.
Пытайтесь сами написать - с отдельными моментами тут помочь - помогут.
Эта задача полностью неразрешаема, кстати.
Когда появится ИИ - тогда, возможно, появится решение и для этого.
0
 Аватар для daruwanov
77 / 58 / 8
Регистрация: 10.03.2011
Сообщений: 354
11.02.2013, 17:44
Цитата Сообщение от OnYourLips Посмотреть сообщение
Эта задача полностью неразрешаема, кстати.
Когда появится ИИ - тогда, возможно, появится решение и для этого.
Согласен, 100% гарантии попадания не будет. Но просили описать алгоритм как можно, это попробовать осуществить.

Насчет ИИ - посмею предположить - что можно обойти - используя нейронные - обучая систему отличать.
Но тут встает вопрос в рациональности их использования в этой конкретной ситуации
0
508 / 358 / 13
Регистрация: 12.03.2012
Сообщений: 1,896
11.02.2013, 18:11
Но просили описать алгоритм как можно, это попробовать осуществить.
Функцией preg_replace.
0
0 / 0 / 0
Регистрация: 05.02.2013
Сообщений: 9
14.02.2013, 13:31  [ТС]
Пишу сообщения, а они куда-то пропадают. Странно.

 Комментарий модератора 
Правила форума
4.6 Обсуждение тем - только на форуме. Приглашения к обсуждению еще где-либо запрещены.
0
775 / 444 / 93
Регистрация: 24.10.2012
Сообщений: 3,240
Записей в блоге: 5
15.02.2013, 16:56
MihailSmirnov, алгоритм для обработки текста
Кликните здесь для просмотра всего текста
PHP
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
<?php
 
# 15-th February 2013, 3:11PM
# Green detect PHP class
# This class detect poor words
# (C)2013, Katana
#
class greenDetect
{
    # Poor list database file
    var $poor_db = "poor_db.txt" ;
    # For transliteration english char map
    var $en_char_map = array(
        "jo", "j", "c", "u", "k", "e", "n", "g", "sh", "sh", 
        "z", "h", "'", "f", "u", "v", "a", "p", "r", "o", 
        "l", "d", "zh", "je", "ja", "ch", "s", "m", "i", "t", 
        "'", "b", "ju" ) ;
    # For transliteration russian char map
    var $ru_char_map = array(
        "ё", "й", "ц", "у", "к", "е", "н", "г", "ш", "щ", 
        "з", "х", "ъ", "ф", "ы", "в", "а", "п", "р", "о", 
        "л", "д", "ж", "э", "я", "ч", "с", "м", "и", "т", 
        "ь", "б", "ю"
    ) ;
    var $poor_list = "" ;
        function constructor() {
                # Get poor data base content
                $poor = file_get_contents($this->poor_db);
                # Create poor words colletion
                $this->poor_list = split('/[\r\n]/', $poor);
            }
        # General method. $w is poor contain?
        function poorDetect($w) {
                # In this, implement some author poor detect algorithms
                # All chars to lowercase
                $w = strtolower($w);
                # All (or some) chars to russian
                $w = str_replace($this->en_char_map, $this->ru_char_map, $w);
                # Compare $w at each poor list word
                foreach( $this->poor_list as $poor ) {
                        # Trim many spaces into each word
                            $w = trim($w) ;
                        # Green detect
                        if( $poor == $w OR $poor == strrev($w) ) {
                                # Poor, go
                                return true ;
                            } else {
                                    # Goodbay!
                                    return false ;
                                }
                    }
            }
}
 
?>
0
16.02.2013, 12:01

Не по теме:

Цитата Сообщение от tolimadokara Посмотреть сообщение
This class detect poor words
# (C)2013, Katana
2013 год, а написано под 4 пых..
Цитата Сообщение от tolimadokara Посмотреть сообщение
function constructor() {
и что, вызывается? :) __construct(), ну или, раз уж под старый пых - имя класса и будет конструктором

0
16.02.2013, 15:22

Не по теме:

2013 год, а написано под 4 пых..
почему под 4 пых? можно узнать
и что, вызывается?
Кликните здесь для просмотра всего текста
PHP
1
2
3
4
5
6
7
8
<?php
 
$greenDetect = new greenDetect;
 
echo $greenDetect->poorDetect("Домовой"); \\ true
echo $greenDetect->poorDetect("Дом"); \\ false
 
?>

имя класса и будет конструктором
конструктор это один из методов класса, в php автоматически должен вызываться то ли метод construct, или constructor - я точно не помню, поэтому там ошибочка не большая :D

0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
16.02.2013, 15:22
Помогаю со студенческими работами здесь

Программа для обработки текста не запускается
Это программа для обработки текста, но она почему-то не запускается, не могли бы вы найти эту ошибку и исправить program Text_Format; ...

GUI PyQT5 для скрипта обработки текста
Доброй ночи, форумчане. Пытаюсь освоить PyQT5 без конструкторов. Пишу сейчас вручную GUI для обработки текста. Столкнулся с...

Создать консольное приложение на С/С++ для обработки и печати текста
Создать приложение которое бы -обрабатывала текст -печатала весь текст -печать файла ***печать всех слов содержащих букву А ...

Создайте меню и методы (функции) для обработки текста
Кому не сложно помогите написать. Пользователь вводит предложение Создайте меню и методы (функции) для обработки текста ...

Как написать программу для построчной обработки текста?
Вот задание.. Написать программу для построчной обработки текста. В главной функции программа должна запросить и ввести с клавиатуры...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
20
Ответ Создать тему
Новые блоги и статьи
сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
Почему дизайн решает?
Neotwalker 09.01.2026
В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .
Модель микоризы: классовый агентный подход 3
anaschu 06.01.2026
aa0a7f55b50dd51c5ec569d2d10c54f6/ O1rJuneU_ls https:/ / vkvideo. ru/ video-115721503_456239114
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ФедосеевПавел 06.01.2026
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR ВВЕДЕНИЕ Введу сокращения: аналоговый ПИД — ПИД регулятор с управляющим выходом в виде числа в диапазоне от 0% до. . .
Модель микоризы: классовый агентный подход 2
anaschu 06.01.2026
репозиторий https:/ / github. com/ shumilovas/ fungi ветка по-частям. коммит Create переделка под биомассу. txt вход sc, но sm считается внутри мицелия. кстати, обьем тоже должен там считаться. . . .
Расчёт токов в цепи постоянного тока
igorrr37 05.01.2026
/ * Дана цепь постоянного тока с сопротивлениями и источниками (напряжения, ЭДС и тока). Найти токи и напряжения во всех элементах. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа и. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru