Jak vytvořit správný PDF soubor pro archivaci na tomto webu?

by Dazul30. 7. 2014

Základní informace o kritériích, které musí splňovat PDF soubor s digitalizovaným číslem časopisu pro to, aby mohl být na tomto webu archivován jsou popsány v odkazu Jak se stát registrovaným uživatelem tohoto webu. Ale protože se na tento web obrací cca 10% zájemců o získání přístupu do archivu, kteří neumí takovýto PDF soubor vytvořit, pokusím se pro ně popsat jak postupuji já. Upozorňuji, že postup, který používám, není jediný správný a že existuje více způsobů – asi rychlejších, komfortnějších i spolehlivějších.

Časově nejnáročnější je samotné skenování časopisu. Pokud to váš program umožňuje, skenujte a ukládejte strany časopisu rovnou do formátu PDF.

Pokud máte časopis už naskenovaný (zpravidla ve formátu v JPG nebo TIF), zkontrolujte, zda je sken v rozlišení alespoň 300 dpi, zda jsou stránky správně ořezané i orientované.

Pojmenujte si stránky jednotlivého čísla tak, aby šly posloupně za sebou – aby byly správně seřazeny. Pak je převeďte do PDF. Já k tomu používám program Zoner Photo Studio 12 (zkušební a plně czkční verze lze stáhnout legálně ze stránek výrobce tohoto českého programu – http://www.zoner.cz/).

Nejdříve je ale vhodné skenované stránky upravit – ořezat. Lze ořezat i ve formátu PDF, ale to se mi zdá pracnější – zvláště, je-li potřeba každá stránka ořezat jinak.

Když budou všechny stránky správně ořezány, převedete je do souboru PDF. Pochopitelně musí být seřazeny posloupně, aby nebyly stránky na přeskáčku 🙂 V programu ZONER to jde jednoduše (já používám verzi 12 – u jiné verze to může být trochu jinak): vyberte všechny stránky jednoho čísla (pokud je máte v jednom adresáři, stačí jen Ctrl+A), pak zkrátka Ctrl+P, tlačítko „Další >”, ….. až po „Exportovat do PDF“

Další postup exportu z JPG do PDF ukazuji na příkladu jiného časopisu – MLADÉHO HLASATELE (to aby vás nemátly jiné obrázky):

Do políček v kroku “Parametry exportu do PDF” vyplňte všechny 4 pole – důležité pro další práci s PDF časopisy (vyhledávání souborů, indexace, …)

Soubor uložte se správným pojmenováním (!!!) – MLADY_TECHNIK_5.rocnik_(1951-52)_cislo_50 – bez háčků a čárek, s podtržítky místo mezer …. (nazev_rocnik_rok_cislo)

V programu ADOBE ACROBAT PRO (zkušební verzi lze stáhnout legálně ze stránek výrobce – http://www.adobe.com/cfusion/tdrc/index.cfm?product=acrobat_pro&loc=cz&promoid=KHXXV ) otevřu uložené číslo v PDF – Dokument – Rozpoznávání textu OCR – Rozpoznat text OCR

Spustím proces OCR – OK. Spustí se proces, který trvá i několik minut – podle počtu stran. Tento proces je nezbytný proto aby se mohlo v souboru vyhledávat podle textu (návod je i na https://detske-casopisy.cz/?s=jak+pomoc)

Při procesu je vidět, která stránka se právě upravuje. Po ukončení akce se na obrazovce vrátí titulní strana.

Po doběhnutí procesu nezapomeňte soubor ULOŽIT (Ctrl+S) nebo ikonka diskety.

Doporučuji provést kontrolu, že proces OCR proběhl v pořádku. Otevřu znovu soubor, do pole pro vyhledávání textu zadejte slovo o kterém bezpečně víte, že se v časopise vyskytuje – potvrďte – na obrazovce by se měla objevit stránka se zadaným slovem (v mém případě “technik”) a zvýrazněným slovem (v mém případě “technika” – obsahuje slovo “technik”).

A to je všechno, soubor je nyní vhodný k archivaci na detske-casopisy.cz – spolu s ostatními PDF soubory jej můžete poslat k přípravě archivu a nebo je (po přidělení oprávnění i k editaci webu) rovnou na web nahrát a připravit krátký článek s průvodním slovem, zajímavostmi, náhledem titulních stran a odkazy ke stažení.

Mějte na paměti, že pro archivování na tomto webu, musí výsledný soubor splňovat tyto kritéria:

uložen ve formátu PDF
pečlivě ořezané všechny strany tak uloženého čísla + dodržená správná orientace všech stran
správně upravený formát PDF – ve kterém lze rozpoznat text – OCR (důležité pro další badatelskou práci – vyhledávání dle textu, vytvoření rejstříku, …)
uloženo 1 číslo do 1 souboru PDF
maximální velikost jednoho souboru může být 30 MB
při pojmenování souboru dodržený formát NÁZEV_ročník_rok-vydání_číslo (např. ABC_12.rocnik_(1967-68)_cislo 09.pdf) – bez háčků a čárek, namísto mezer podtržítko, …

Dazul

Oldskaut, poutník a mimo jiné i sběratel starých dětských časopisů, ...

View all posts by Dazul →

28 thoughts on “Jak vytvořit správný PDF soubor pro archivaci na tomto webu?”

Miloš napsal:

31. 12. 2016 (20:32)

Nevím, kolik dělá chyb Adobe Acrobat Pro, tuším, že stojí cca kolem 10 tisíc! nabízím lepší řešení – AbbyyFineReader 12, umožňuje zonovat – neboli určit pořadí textových sloupců. Tento program stojí tuším cca 3000 Kč! a umožňuje skenování, rozpoznávání z obrázkových formátů, PDF a uložení do různých formátů od txt, docx, rtf, obrázkové PDF nebo PDF s textovou vrstvou pod obrazem stránky nebo nad ní … Další info a pomoc mohu na vyžádání sdělit.

Odpovědět
Josef napsal:

3. 8. 2017 (16:57)

Mám připravené 4. číslo ČINOVNÍKA 1946 k archivaci, – pošlu přes úschovnu na jakou adresu?
Pepa Karhan

Odpovědět
Dazul napsal:

4. 8. 2017 (22:22)

editor@detske-casopisy.cz – pokud má soubor více než 5 MB, posílejte raději přes uschovna.cz

Odpovědět
Standa Galásek napsal:

4. 1. 2018 (18:32)

Tak nevím, kolik je asi ochotných lidí nějaký chybějící časopis poslat, ale jejich snaha ztroskotá na bezradnosti jak to udělat. Já jsem si již stáhl Zoner Photo Studio X, ale nejsem absolutně schopen naskenované stránky zpracovat dle požadavků. Podle návodu se mi ani nenaskytají možnosti v něm uvedené. Na PC sice pracuji, ale v tomto směru jsem prostě neschopný. Co s tím, vážení? Rád bych přispěl, rád bych u Vás zalistoval, ale nehnu se z místa.

Odpovědět
1. Dazul napsal:
  
  4. 1. 2018 (19:57)
  
  Ten návod jsem skutečně připravoval pro použití v programu ZONER PHOTO STUDIO 12. Ale použít lze mnoho dalších programů (ukládání více stran do PDF umí i nejběžnější textový editor Microsoft Word – před chvílí jsem vyzkoušel na verzi MS Word 2010) – na začátku návodu píšu “Upozorňuji, že postup, který používám, není jediný správný a že existuje více způsobů – asi rychlejších, komfortnějších i spolehlivějších.”
  
  Odpovědět
Josef napsal:

4. 1. 2018 (19:45)

Návod je připravený pro program “Zoner Photo Studio 12” a ne “Zoner Photo Studio X”. Je pravděpodbné, že to ten novější program neumí. Budete muset stáhnout starší verzi.

Odpovědět
1. Galásek napsal:
  
  21. 9. 2019 (16:34)
  
  Zoner Photo Studio stažený zdarma do PDF převádět neumí, jednodušší je převaděč on-line např. zde https://lightpdf.com/cz/jpg-to-pdf
  
  Odpovědět
Moc velké PDF napsal:

26. 2. 2021 (12:49)

V jakém rozlišení máte jpeg obrázky jednotlivých stránek? Já je konvertuji např. na 700×1000 pixelů, a přesto při zachování 300 DPI pak výsledný PDF soubor 40stránkového časopisu má přes 50 MB. Při původním naskenovaném rozlišení mělo pdf 400MB. :-/ Jak to dokážete stáhnout na 30?

Odpovědět
1. Dazul napsal:
  
  11. 3. 2021 (14:45)
  
  Udělal jsem pokus na 28 skenovaných stránkách 254×3637 s rozlišením 300 DPI (velikost 2,4 MB). Po převedení do PDF (dle návodu na tomto webu) má soubor 68,3 MB. Pal jsem aplikoval v Adobe Acrobat Pro (verze 10.1.16) OCR a soubor uložil. Soubor s OCR se mi uložil ve velikosti 9,9 MB.
  
  Odpovědět
Skenovani, PDF napsal:

2. 3. 2021 (9:09)

Do PDF lze převést více způsoby. Základem bych viděl jako kvalitní zpracování do JPG neboli obrázku. Zoner je placený co použít nějaký jiný nástroj na pěkné zpracování obrázku?
Může to být GIMP, Picasa apod které krásně vyhladí obrázky. Skenery to podporují už přímo, aby nebylo vidět pozadí, jako jsou vrstvy papíru.

Do PDF lze použít programy, které jsou zcela zdarma.
– libre office (kancelářský balík)
– nejjednodušší je použít ve Windows 10 “Tisk do PDF”. Nabízí tam přímo tiskárnu do PDF. A přitom se to chová jako tiskárna
– potom je dost online a jiných převodníků

Jako návod může hodně lidem pomoct video návod, který se dá dát na youtube. K vytvoření takového návodu používám kvalitní a zdarma nástroj ActivePresenter

Ke skenování dnes lze použít i telefon a například program CamScan na Android. Tento program vyrovná stránky hned při skenování a uloží do PDF. Dnešní fotáky v mobilu snadno vynahradí velké skennery.

Také lze snadno udělat si vlastní úložistě na tomto nebo jiném webu, kde se dá udělat v PHP stránka na upload a poté jednoduše na seznam oho co tam je. Nemusíte využívat uschovna.cz . S tímto mohu snadno pomoct.

Odpovědět
1. Dazul napsal:
  
  4. 3. 2021 (14:59)
  
  Ano máte pravdu, PDF lze “vyrobit” více způsoby. Proto taky píšu v úvodu návodu “Upozorňuji, že postup, který používám, není jediný správný a že existuje více způsobů – asi rychlejších, komfortnějších i spolehlivějších.”
  Vaše nastíněné možnosti neřeší OCR u PDF – jeden z 10 bodů našich pravidel.
  PDF soubory se nám posílají přes uschovna.cz pouze proto, že přes většinu mailových klientů není možno posílat velké přílohy.
  Pokud budete schopen pomoci s “vlastním úložištěm” (hostingujeme zatím na WEDOS) se PHP stránkou pro upload, rádi vyzkoušíme a bude-li czgovat (aby nepropouštěla soubory, které porušují některý z 10 bodů našich pravidel), obratem začleníme do naší práce !!!
  
  Odpovědět
Problem s OCR v Acrobatu napsal:

5. 11. 2021 (10:52)

Zdravim vas.

Pripravuji slibene specialni cislo Ohnicku s Barbankem podle vasich pozadavku. Ale nastal problem, se kterym si nevim rady.

Vsechny stranky peclive naskenovane ve 400DPI, barva.
Kazda stranka co mozna nejlepe vyrovnana.
Vytvorim v Acrobatu PDF.

A prichazi problem:
pri rozpoznavani textu dochazi k tomu, ze kolikrat nesmyslne dochazi k natoceni objektu bitmapy, ne vsude, nekde az moc, pritom jsme stranky vyrovnaval hlavne kvuli textovym castem a vodorovnosti obsahu.. po ulozeni takoveho PDF mam k dispozici paskvil, na kterem sice dohledate text, ale vysledny vizual je na nic..

Co s team? Nejaka rada? Pripadne jiny nastroj, ktery nemrvi vysledne PDF?

Odpovědět
1. Totem napsal:
  
  10. 11. 2021 (16:00)
  
  Zdravím,
  vyskúšajte toto. Je to zadarmo https://cs.pdf24.org/
  
  Totem
  
  Odpovědět
  1. Jaroslav Haflant napsal:
    
    28. 9. 2024 (13:27)
    
    Zdravim Vás, po domluvě s panem Drábkem jsem oskenoval romám z ABC nazvaný Tajemný tank, který vycházel v letech 1967 až 1969. Pan Drábek mi sice poradil zoner, ale nemožu s tím hnout. Ořezany a seřazeny stránky mám, někde jsem začal ukládání aby se vešlo do 30 MB, ale nemožu to v počítači najít. Bylo by ode mě velká drzost, jestli bych vám to poslal přes úschovnu ? Nezkomprimované to má 372 MB.
    S přátelským pozdravem
    J.Haflant
    
    Odpovědět
    1. Vladimír Zrnečko napsal:
      
      1. 10. 2024 (10:18)
      
      Dobrý den, jsem přispívatel jako Vy a uvedené ročníky včetně Vašeho románu jsou již součástí nabízených ročníků (knihovny).
      Vladimír Zrnečko
      
      Odpovědět
Nabídka Mladý technik napsal:

12. 1. 2023 (10:01)

Dobrý den,
mám k dispozici Mladého technika ročník 1953. Pokud byste měli zájem pokusil bych se ho oskenovat.
S pozdravem
M.Souček

Odpovědět
1. Dazul napsal:
  
  12. 1. 2023 (12:09)
  
  Ze 7. ročníku MLADÉHO TECHNIKA máme digitalizováno pouze 1. číslo, o digitalizaci zbývajících čísel zájem máme.
  
  Odpovědět
RODOKAPS 01.ročník (1935-36) číslo 002 – MATČIN VÝKŘIK napsal:

9. 11. 2023 (16:30)

Dobrý den.
Chtěl až bych se podívat pro jiné knihovny.
Včera se má různé Rodokaps (1935-1645).
Připravoval na “RODOKAPS 01.ročník (1935-36) číslo 002 – MATČIN VÝKŘIK”. Mám různé PDF, DJVU, AZW3, MOBI, EPUB. Upravíme které ÚSCHOVNA.
http://www.uschovna.cz/zasilka/NH3YW37H7UDMJE9A-E7Z

Zdravím

Milan Kunst
Sládkovičova 1247/34
142 00 Praha 4 – Krč
Mobil: 603484190

Odpovědět
Karel Braun napsal:

25. 7. 2024 (21:20)

Dobrý den,
nevím sice zda je zcela na místě počítat mezi “staré dětské časopisy” také i “Technický magazín”, ale zpozoroval jsem, že jedno jeho číslo (konkrétně číslo 4 jeho 6. ročníku z roku 1963) zde máte také uvedeno.
Vlastním po otci několik kompletních ročníků tohoto časopisu, počínaje tím 2. z roku 1959 a pokud by tedy byl zájem, pokusil bych se postupně a víceméně ne zrovna nejrychlejším tempem (z časových důvodů) alespoň něco z toho zdigitalizovat (samozřejmě podle vašich pravidel) a poskytnout tomuto skvělému serveru.
Než se ale pustím do jakékoli práce s onou digitalizací, tak se raději ještě ptám, jestli je o tento časopis opravdu zájem, abych nedělal něco zbytečně.
S pozdravem
K. Braun

Odpovědět
Karel Mráček napsal:

16. 9. 2024 (17:42)

Zdá se, že vám chybí Srdíčko poslední ročník (1942), mám jej kompletní svázaný (bude tedy problém při skenování u hřbetu). Chybí opravdu? Abych neskenoval zbytečně. Nepoužívám Acrobat, který zaneřádní celé PC, ale Foxit Phantom verze 10, který je podle mého mnohem přívětivější. Mám velký A3 Skener, který skenuje do pdf, ale nikdy jsem zatím nezkoušel dělit skenované dvoustránky. Foxit do OCR převádí, tam problém nevidím (zatím teoreticky). Tak mám začít?
S pozdravem
KM

Odpovědět
Karel Mráček napsal:

23. 9. 2024 (17:15)

Zdravím, zdá se mi, že to tu je mrtvé, nikdo nereaguje…

Odpovědět
1. Totem napsal:
  
  23. 9. 2024 (20:52)
  
  Dobrý deň,
  mrzí nás to, ale pokiaľ sa jedná o 10.ročník (1941-42) časopisu Srdíčko, ten máme kompletný a pripravený k publikovaniu.
  (totem)
  
  Odpovědět
Karel Mráček napsal:

24. 9. 2024 (5:58)

Dobrý den,
aha, on nebyl v seznamu, proto jsem jej nabízel…

Odpovědět
Karel Mráček napsal:

27. 9. 2024 (17:01)

Dobrý den,
takhle se ale asi nesejdeme, ten ročník jsem koupil jen kvůli tomu, že jste jej neměli v seznamu, jak mám tušit, co máte připravené ke zveřejnění?

Odpovědět
1. Dazul napsal:
  
  30. 9. 2024 (18:40)
  
  Aktuálně máme více než 10 000 nepublikovaných digitalizovaných čísel, které čekají na kontrolu duplicity, pojmenování, ocr, … A téměř každý den dorazí nějaké další číslo, proto taky nemáme aktuální seznam takovýchto čísel. Nejspolehlivější je napsat které konkrétní číslo chcete digitalizovat a my ověříme, zda už je máme nebo ne.
  
  Odpovědět
Jan Kosa napsal:

18. 11. 2024 (11:02)

Zdravim, odevzdal jsem digitalizovany Elektron cislo 11 prvniho rocniku, aby jste ho meli kompletni, ale nevidim ho zatim tady, nejaky problem ?

Odpovědět
1. Dazul napsal:
  
  18. 11. 2024 (11:53)
  
  Vysvětlení – https://detske-casopisy.cz/casto-pisete-proc-trva-dat-na-web-vase-casopisy-tak-dlouho/
  
  Odpovědět
  1. Jan Kosa napsal:
    
    18. 11. 2024 (15:54)
    
    6 deti ?? Jeden se divi ze jeste vubec dejchate 😀
    
    Odpovědět

Dazul

28 thoughts on “Jak vytvořit správný PDF soubor pro archivaci na tomto webu?”

Napsat komentář Zrušit odpověď na komentář