Filter pdf text by font wih pdfminer

Question

So I am using pdfminer.six to extract text by a specific font. But currently I have this following problem:

from pdfminer.high_level import extract_pages
from pdfminer.layout import LTTextContainer, LTChar

def extract_text_by_font(pdf_file):
    extracted_text = ""

    for page_layout in extract_pages(pdf_file):
        for element in page_layout:
            if isinstance(element, LTTextContainer):
                for text_line in element:
                    for character in text_line:
                        if isinstance(character, LTChar):
                            extracted_text += character.get_text()

    return extracted_text

If I compare output from this function with from pdfminer.high_level.extract_text, then extract_text_by_font does not extract the text properly. For example with pdfminer.high_level.extract_text I get

"... Hello World..."

but with extract_text_by_font I get

"...HelloWorld...".

So it removes sometime the whitespaces. Can you fix it?

score 0 · Answer 1 · answered Jul 28 '23 at 11:07

Try this:

from pdfminer.high_level import extract_pages
from pdfminer.layout import LTTextContainer, LTChar

def extract_text_by_font(pdf_file):
    extracted_text = ""
    prev_x = 0

    for page_layout in extract_pages(pdf_file):
        for element in page_layout:
            if isinstance(element, LTTextContainer):
                for text_line in element:
                    for character in text_line:
                        if isinstance(character, LTChar):
                            # Adding a space if the difference in x-coordinates
                            # is more than the character width.
                            if character.x0 - prev_x > character.width:
                                extracted_text += ' '

                            extracted_text += character.get_text()
                            prev_x = character.x0 + character.width

    return extracted_text

But I can add a constant c to `character.x0 - prev_x > c * character.width`. — Thanh Long Phan, Jul 28 '23 at 12:02

Filter pdf text by font wih pdfminer

1 Answers1