Добре дошли във форумите на Linux Mint!

програма

[РЕШЕНО] Програма за редактиране на pdf и предаване на OCR - редактируем PDF/A

Модератори: tomeu, JCSenar

[РЕШЕНО] Програма за редактиране на pdf и предаване на OCR - редактируем PDF/A

Публикувано от матровска »Сряда, 05 февруари 2020 г. 12:06 ч

Опитах различни помощни програми, включително тази в последната връзка на EvaEva, на GScan2pdf, и няма начин.

Другото приложение, което конфигурирах по това време, беше GImageReader (със зависимости също от tesseract след следване на урок). Хубавото на тази програма е, че тя открива текстови блокове и дори автоматично разпознава подреждането и завърта страници, които не са напълно прави.

Въпреки това го оставям за момента като невъзможно, тъй като има няколко фактора, които влияят върху ограничаването на програмите и откриването, и OCR, като сложни сканирани административни форми, с няколко полета и блокове

С това, което OCR за тези форми, не е оптимално и има повече грешки, отколкото хитове, жалко.

Re: Програма за конвертиране от OCR текст в редактируем текст. -

Публикувано от tomeu »Четвъртък, 06 февруари 2020 г. 3:31 ч

sudo apt инсталира ocrmypdf

В от команди в терминал, но не само, че е най-добрият, който има (по мое много скромно мнение), но е абсолютно ефективен.

Re: Програма за конвертиране от OCR текст в редактируем текст. -

Публикувано от матровска »Петък 07 февруари 2020 г. 11:11 ч

Параметрите, които са подходящи за мен в това разследване, са:

Re: Програма за редактиране на pdf и конвертиране в OCR - редактируем PDF/A

Публикувано от tomeu »Вторник, 11 февруари 2020 г. 6:25 ч

Разделих тази нишка от предишната, защото считам, че тя не се отнася до абсолютно същото нещо и е от 2016 г.

Ще продължим да говорим за ocrmypdf, но тъй като цитирате уебсайта му, коментирайте едва сега, след като актуализирах до версия 9.5 и качеството е по-добро, и преди всичко това не прави файловете с прекомерно тегло, но е почти същото.

Re: Програма за редактиране на pdf и конвертиране в OCR - редактируем PDF/A

Публикувано от матровска »Вторник, 11 февруари 2020 г. 7:43 ч

Инсталирах приложението CLI от хранилищата на Linux Mint, което върви по версия 6.1.2 (за Ubuntu 18.04 или по-нова според мрежата).

От моя подпис linux Mint, как мога да инсталирам версията 9.5, която споменавате?.

Re: Програма за редактиране на pdf и конвертиране в OCR - редактируем PDF/A

Публикувано от tomeu »Вторник, 11 февруари 2020 г. 8:06 ч

редактирано: по дяволите! Бях сложил всички следвани стъпки и бях прекъснал връзката, с което съобщението се загуби.

Re: Програма за редактиране на pdf и конвертиране в OCR - редактируем PDF/A

Публикувано от tomeu »Вторник, 11 февруари 2020 г. 11:12 ч

Ще се опитам да възстановя (но по-обобщено):

1) Имаме инсталиран ocrmypdf с apt или синаптични. Ако имаме L.Mint 19. * (ubuntu 18.04), ще имаме версия 6.1.4

2) Инсталираме езиковите файлове, които ще използваме:
tesseract-ocr и tesseract-ocr - *** където *** е/са езиците, които искаме или ще използваме в нашите документи (spa, cat, eng.)

3) От незадължителните пакети се отказвам от „jbig2enc“, който не е в хранилищата, и инсталирам „pngquant“ и „unpaper“, защото те са в необходимите версии и могат да използват.

4) Инсталираме новата версия на pip:

След рестартиране и даване на командата ocrmypdf --version това трябва да излезе: 9.5.0.post1 + g6f66232

Предимства на версия 9.5 в сравнение с хранилището:

1. - Преди, ако PDF документ е имал част за редактиране, а част не, трябваше да добавите командата --force-ocr, сега не ме е питал по всяко време .

2. - Качеството на резултата се е подобрило.

3. - Преди да трябва да поставите серия от варианти, в зависимост от документа, напишете:
ocrmypdf --език spa --rotate-pages -deskew --force-ocr --clean-final document.pdf document-ocr.pdf
Сега достатъчно:
ocrmypdf документ.pdf документ-ocr.pdf

4. - Преди документ с качествен резултат може би е преминал от 100 на 600 Mb, сега документ от 100 Mb е малко по-тежък (приблизително 120 Mb)