View previous topic :: View next topic |
Author |
Message |
alexanderwdark
Joined: 14 Apr 2008 Posts: 304 Location: Россия
|
(Separately) Posted: Tue Oct 15, 2019 15:30 Post subject: WCX_RedTess - Распознавание PDF и изображений (сканов) |
|
|
WCX плагин позволяет работать с изображениями и PDF как с архивами, содержащими текстовые файлы (с кодом языка в качестве имени).
Вход в "архив" - Ctrl+PgDown.
Code: | WCX_TESS - C++ image to text & PDF to text converter in the form of TC packer plugin.
Based on code from Tesseract, Poppler, Leptonica and/or OpenCV libraries.
Text recognition here working using "trained models" from Tesseract.
Russian and English models are included in basic archive (*.traineddata files).
If you need any other models, download it and write language codes into "redtess.json" config.
You need "langs" key for this. Mixed records such as "eng, rus" are allowed.
You will see all these values in TC panel as virtual archive's files with txt extension.
There is "Fast" version of "trained models" by default.
It works fast, though can have some problems (but no so bad!).
But you can get "Best" version of models using this link:
https://github.com/tesseract-ocr/tessdata_best
And replace tessdata folder content.
Or use normal models:
https://github.com/tesseract-ocr/tessdata
Also you can enable support of many other image formats (see "formats" key in config).
You can use any of Leptonica or OpenCV supported pictures with this plugin.
Multi-page at this moment enabled for TIFF format.
PDF get rasterized in memory before recognition, so try to tune DPI in configuration file.
Leptonica is default library for plugin, but you can switch to OpenCV. |
Актуальная версия здесь
Last edited by alexanderwdark on Tue Oct 22, 2019 13:03; edited 3 times in total |
|
Back to top |
|
|
alexanderwdark
Joined: 14 Apr 2008 Posts: 304 Location: Россия
|
(Separately) Posted: Fri Oct 18, 2019 15:45 Post subject: |
|
|
18.10.2019 Доступа статичная версия RedTess без динамических библиотек. Обе x86 и x86-64 версии в одном архиве
(собрано с пропатчеными poppler и glib) |
|
Back to top |
|
|
lsched
Joined: 20 Oct 2009 Posts: 70 Location: Россия, Саратов
|
(Separately) Posted: Fri Oct 18, 2019 23:03 Post subject: |
|
|
Не устанавливается. «Этот файл не является корректным плагином!»
Что на Win 7, что 8.1, 32 бит. Тотал последний стабильный, и только что попробовал на новой бете. |
|
Back to top |
|
|
alexanderwdark
Joined: 14 Apr 2008 Posts: 304 Location: Россия
|
(Separately) Posted: Mon Oct 21, 2019 10:57 Post subject: |
|
|
lsched wrote: | Не устанавливается. «Этот файл не является корректным плагином!»
Что на Win 7, что 8.1, 32 бит. Тотал последний стабильный, и только что попробовал на новой бете. |
По какой причине некоторые рабочие системы не содержат необходимых библиотек, хотя после установки из чистых образом что 7ка, что 10ка - содержат.
Судя по имеющейся информации, это случается на необновленных (некорректно обновленных) системах. |
|
Back to top |
|
|
lsched
Joined: 20 Oct 2009 Posts: 70 Location: Россия, Саратов
|
(Separately) Posted: Mon Oct 21, 2019 18:00 Post subject: |
|
|
alexanderwdark wrote: | 18.10.2019 Доступа статичная версия RedTess без динамических библиотек |
alexanderwdark wrote: | По какой причине некоторые рабочие системы не содержат необходимых библиотек |
А каких именно библиотек не хватает? Что нужно доставить?
И что значит «некорректно обновленных системах»? Это как? |
|
Back to top |
|
|
alexanderwdark
Joined: 14 Apr 2008 Posts: 304 Location: Россия
|
(Separately) Posted: Tue Oct 22, 2019 09:11 Post subject: |
|
|
lsched wrote: | alexanderwdark wrote: | 18.10.2019 Доступа статичная версия RedTess без динамических библиотек |
alexanderwdark wrote: | По какой причине некоторые рабочие системы не содержат необходимых библиотек |
А каких именно библиотек не хватает? Что нужно доставить?
И что значит «некорректно обновленных системах»? Это как? |
Некорректно обновленных - это как у меня одна система. По данным самой ОС там стоят все обновления, но ряда библиотек нет, к-рые присутствуют в чистой MSDN системе той же версии. Речь идет о ucrt. Если использовать fileinfo плагин для TC или dependency walker, на проблемной ОС заметна нехватка зависимостей даже для ряда системных библиотек.
Поскольку плагин сейчас скомпилирован со статическим CRT, ucrt отдельный ему не требуется. Всё дело в системе. Сейчас с нуля поставил десятку 1903 бизнес-редакции. Плагин завелся безо всякой подготовки. |
|
Back to top |
|
|
Monarch-LFV
Joined: 22 Jul 2019 Posts: 240
|
(Separately) Posted: Tue Oct 22, 2019 12:01 Post subject: |
|
|
Идея прям очень хороша, но реализация пока хромает. Распознается пока очень и очень криво по сравнению с Finereader Screenshot. Нельзя одновременно использовать и русское и английское распознавание (для технической документации очень важно). Если реализацию доточить, то плагин супер крутой будет! Верю и жду)) |
|
Back to top |
|
|
alexanderwdark
Joined: 14 Apr 2008 Posts: 304 Location: Россия
|
(Separately) Posted: Tue Oct 22, 2019 12:19 Post subject: |
|
|
Monarch-LFV wrote: | Идея прям очень хороша, но реализация пока хромает. Распознается пока очень и очень криво по сравнению с Finereader Screenshot. Нельзя одновременно использовать и русское и английское распознавание (для технической документации очень важно). Если реализацию доточить, то плагин супер крутой будет! Верю и жду)) |
Одновременно можно. Посмотрите в ReadMe.txt.
Добавляйте в список rus+eng например. Или вообще любой другой язык.
Возможно, переход на best-версию модели улучшит и качество распознавания. А так, всё ограничено движком - улучшить разве что какими-то фильтрами можно с блочным разбором и словарной поддержкой, но пока руки не доходят.
Добавлено спустя 45 минут:
22.10.19 Новая сборка (некоторые исправления). |
|
Back to top |
|
|
alexanderwdark
Joined: 14 Apr 2008 Posts: 304 Location: Россия
|
(Separately) Posted: Wed Oct 23, 2019 16:56 Post subject: |
|
|
23.10.19 Новая сборка тут. |
|
Back to top |
|
|
lsched
Joined: 20 Oct 2009 Posts: 70 Location: Россия, Саратов
|
(Separately) Posted: Wed Oct 23, 2019 19:17 Post subject: |
|
|
alexanderwdark wrote: | По данным самой ОС там стоят все обновления, но ряда библиотек нет | Возможно, я как-то не так спросил. Повторюсь - какие именно библиотеки нужны? Вы же знаете, какие именно ваша программа использует?
Заодно - почему-то другие проги никакой некорректности не замечают, все работают замечательно. Кроме вашей.
Новая версия тоже не завелась, к сожалению. |
|
Back to top |
|
|
alexanderwdark
Joined: 14 Apr 2008 Posts: 304 Location: Россия
|
(Separately) Posted: Wed Oct 23, 2019 19:44 Post subject: |
|
|
lsched wrote: | alexanderwdark wrote: | По данным самой ОС там стоят все обновления, но ряда библиотек нет | Возможно, я как-то не так спросил. Повторюсь - какие именно библиотеки нужны? Вы же знаете, какие именно ваша программа использует?
Заодно - почему-то другие проги никакой некорректности не замечают, все работают замечательно. Кроме вашей.
Новая версия тоже не завелась, к сожалению. |
Статичная версия всё нужное носит с собой, поэтому вывод один - какие-то экспорты в системных библиотеках отсутствуют, т.е. требуются более поздние версии. И поэтому всё заводится на чистых установках из официальных образов семёрки или десятки. Библиотек прилинковано множество, и ц каждой своя зависимость. Но на то она и статика, что здесь всё, включая рантайм - в одном файле. Для проверки можно использовать fileinfo или dependency walker, но и они не гарантируют абсолютно достоверную информацию. |
|
Back to top |
|
|
lsched
Joined: 20 Oct 2009 Posts: 70 Location: Россия, Саратов
|
(Separately) Posted: Wed Oct 23, 2019 19:54 Post subject: |
|
|
alexanderwdark, вы так и не ответили на один, ни на другой вопрос.
Какие библиотеки нужны и почему с другими программами проблем нет? |
|
Back to top |
|
|
alexanderwdark
Joined: 14 Apr 2008 Posts: 304 Location: Россия
|
(Separately) Posted: Wed Oct 23, 2019 19:56 Post subject: |
|
|
Посмотрите через плагин fileinfo, только системные нужны, коробочные. Я ее специалист Майкрософт, не могу вам ответить по различиями между сборками и сервис-паками ОС. |
|
Back to top |
|
|
junk
Joined: 27 Jul 2015 Posts: 29
|
(Separately) Posted: Wed Oct 30, 2019 11:50 Post subject: |
|
|
Упоминаемое Вами ucrt - не в коробочной поставке, а в составе SDK.
Поэтому, чтобы работало везде, - только статическая сборка. |
|
Back to top |
|
|
|