• OCR di Google Docs, leggere il testo in un’immagine

    docs-ocr.jpg

    Forse la maggior parte dei nostri documenti sono in formato cartaceo e si sa, la carta è soggetta a molti rischi e sarebbe indicato salvarli in formato digitale. Tuttavia digitare a mano questi documenti, soprattutto se il numero di pagine è grande, non è né facile né sicuro. Sarebbe quindi molto utile disporre di uno strumento che permettesse una lettura e conversione automatica del testo scansionato con uno scanner in un documento virtuale.

    Google Docs mette a disposizione dei suoi utenti una tecnica di OCR per il riconoscimento del testo nelle immagini.

    Per prima cosa dobbiamo effettuare l’upload dell’immagine (nei formati jpg, gif e png) o del PDF dal quale vogliamo estrarre il testo. Andiamo quindi nella finestra principale di Docs e clicchiamo il pulsante “Upload…”.

    Qui selezioniamo dal nostro computer i file dei quali vogliamo fare l’upload e clicchiamo il flag “Convert text from PDF or image file to Google Docs documents”.

    Clicchiamo “Start upload” e attendiamo la fine del processo.

    Fatto ciò vedremo che fra i nostri file sarà stato aggiunto un file in formato Google Document avente lo stesso nome dell’immagine convertita.

    Aprendo questo file ritroveremo sotto forma di testo e immagini il contenuto del file originario.

    Gli sviluppatori di questa funzionalità consigliano di usare immagini di alta qualità il cui testo sia alto almeno 10 pixel e avvisa che il processo di conversione potrebbe non preservare tutti gli elementi. Inoltre viene imposto il limite di 2MB sulla dimensione dei file e di 10 pagine sui file PDF.

    Tags:

    Se vuoi aggiornamenti su OCR di Google Docs, leggere il testo in un’immagine inserisci la tua e-mail nel box qui sotto:


    Ho letto e acconsento l'informativa sulla privacy

    Si No

    Acconsento al trattamento dei dati personali di cui al punto 3 dell'informativa sulla privacy

    Si No

    Commenti

    1. lordmax dice:

      Fatemi capire.
      Limite di 2Mb sulla dimensione del file e immagini ad alta qualità.
      In pratica si tratta di mezza pagina A4 per volta.
      Se poi l’ocr usato è quello di google (tesseract mi pare si chiami) allora non solo si può mandare un paio di frasi alla volta ma il riconoscimento sarà pure pessimo.

      Diciamo che magari non lo uso e continuo ad usarne uno professionale in locale. ^___^

    2. Giulio Vito de Musso dice:

      Ciao lordmax,
      Il nostro scopo è informare, tu sei libero di scegliere le soluzioni che ritieni più indicate per la tua professione o i tuoi usi.

      Un utente medio potrebbe trovare in questa soluzione gratuita una buona conversione o comunque una conversione che risponde bene alle sue richieste…

      Giulio

    3. lordmax dice:

      Ma non stavo dicendo a voi, stavo dicendo che la soluzione scelta da google è ben lontana dalle esigenze comuni, professionali o meno che siano.

      by the way, le email dei commenti che arrivano su email.it sono vuote, pagine bianche. ^___^

    4. Lazza dice:

      Tesseract pessimo? Andiamo bene…
      E comunque non serve mettere immagini a 10Mpx, bastano in scala di grigi a 200dpi.

    Commenta

    Your email address will not be published. Required fields are marked *