View previous topic :: View next topic |
Author |
Message |
Langly
Joined: 06 Apr 2009 Posts: 3
|
(Separately) Posted: Mon Apr 06, 2009 15:51 Post subject: Поиск стоп-слов в текстовом файле |
|
|
Здравствуйте!
Исходные данные:
Есть список стоп-слов, более сотни.
Есть файл в котором забиты ссылки в HTML с анкорами, более 12000строк (1строка - 1 ссылка)
Задача:
Сравнение файлов и поиск стоп-слов из одного списка, в другом.
Просто чтобы выделил стоп-слова в списке ссылок.
Возможно такое или нет?
Перепробовал кучу софта, никак не могу найти ничего подходящего.
В принципе нужна обычная функция поиска слова, как во всех текстовых редакторах, только с возможностью искать не по 1-му слову, а "пачкой", штук 100 или 50 слов одновременно.
Спасибо.
! | CaptainFlint: | Тема перенесена в "Программное обеспечение". | |
|
Back to top |
|
|
Rodny
Joined: 24 Jan 2007 Posts: 949 Location: Могилёв, Беларусь
|
(Separately) Posted: Mon Apr 06, 2009 16:20 Post subject: |
|
|
Langly wrote: | В принципе нужна обычная функция поиска слова, как во всех текстовых редакторах, только с возможностью искать не по 1-му слову, а "пачкой", штук 100 или 50 слов одновременно. | В большинстве приличных текстовых редакторах есть поиск с регулярными выражениями. Например, EmEditor, Notepad++ и т.п.
Пример запроса: слово1|слово2|слово3|слово4|...|слово50 |
|
Back to top |
|
|
Langly
Joined: 06 Apr 2009 Posts: 3
|
(Separately) Posted: Mon Apr 06, 2009 17:32 Post subject: |
|
|
Rodny wrote: | Langly wrote: | В принципе нужна обычная функция поиска слова, как во всех текстовых редакторах, только с возможностью искать не по 1-му слову, а "пачкой", штук 100 или 50 слов одновременно. | В большинстве приличных текстовых редакторах есть поиск с регулярными выражениями. Например, EmEditor, Notepad++ и т.п.
Пример запроса: слово1|слово2|слово3|слово4|...|слово50 |
Не знаю... специально Notepad++ установил.
Пробовал и так: слово1|слово2|слово3|слово4|...|слово50
и так \слово1, \слово, и по всякому...
нифига не находит.
Контрольные слова в текст вставлял. |
|
Back to top |
|
|
Alextp
Joined: 06 Feb 2005 Posts: 4957
|
(Separately) Posted: Mon Apr 06, 2009 18:54 Post subject: |
|
|
Видимо, поддержка regex в редакторе неполная.
можно попробовать LogViewer (ссылка в подписи): настроить подсветку этих слов, и смотреть файл. _________________ UniViewer - CudaText - LogViewer
|
|
Back to top |
|
|
Langly
Joined: 06 Apr 2009 Posts: 3
|
(Separately) Posted: Mon Apr 06, 2009 20:06 Post subject: |
|
|
Alextp wrote: | Видимо, поддержка regex в редакторе неполная.
можно попробовать LogViewer (ссылка в подписи): настроить подсветку этих слов, и смотреть файл. |
Нет. не идет...
Вбил для проверки
продажа диплом|купить диплом|покупка диплом
И вставил все три выражения в текст в разных местах.
Показал только :покупка диплом, самое последнее. |
|
Back to top |
|
|
Alextp
Joined: 06 Feb 2005 Posts: 4957
|
|
Back to top |
|
|
Rodny
Joined: 24 Jan 2007 Posts: 949 Location: Могилёв, Беларусь
|
(Separately) Posted: Mon Apr 06, 2009 21:54 Post subject: |
|
|
Langly
Виноват, Notepad++ действительно конструкцию "|" не знает. Придётся исключить его из списка приличных редакторов.
EmEditor справляется с поставленной задачей, в том числе и с последними примерами. В нём вообще наилучшая работа с регекспами из того, что я пробовал. |
|
Back to top |
|
|
basileus
Joined: 08 Dec 2009 Posts: 3
|
|
Back to top |
|
|
|