Как исправить ошибку Docling при конвертации PDF

Question

Как исправить ошибку при использовании Docling для конвертации PDF?

Я пытаюсь использовать библиотеку Docling для конвертации PDF документа в Markdown, но получаю ошибку. Код, который я запускаю, основан на официальной документации:

python

from docling.document_converter import DocumentConverter

source = "https://arxiv.org/pdf/2408.09869"
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())

Однако при выполнении этого кода возникает следующая ошибка:

Traceback (most recent call last):
  File "C:\Users\Макс\Desktop\VS Code Projects\RAG\.venv\Lib\site-packages\docling\datamodel\document.py", line 171, in __init__
    self._init_doc(backend, path_or_stream)
    ~~~~~~~~~~~~~~^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\Макс\Desktop\VS Code Projects\RAG\.venv\Lib\site-packages\docling\datamodel\document.py", line 215, in _init_doc
    self._backend = backend(self, path_or_stream=path_or_stream)
                    ~~~~~~~^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\Макс\Desktop\VS Code Projects\RAG\.venv\Lib\site-packages\docling\backend\docling_parse_v4_backend.py", line 206, in __init__
    self.parser = DoclingPdfParser(loglevel="fatal")
                  ~~~~~~~~~~~~~~~~^^^^^^^^^^^^^^^^^^
  File "C:\Users\Макс\Desktop\VS Code Projects\RAG\.venv\Lib\site-packages\docling_parse\pdf_parser.py", line 579, in __init__
    self.parser = pdf_parser_v2(level=loglevel)
                  ~~~~~~~~~~~~~^^^^^^^^^^^^^^^^
RuntimeError: filename does not exists: C:\Users\Макс\Desktop\VS Code Projects\RAG\.venv\Lib\site-packages\docling_parse\pdf_resources_v2/glyphs//standard/additional.dat
2025-10-28 20:18:53,881 - INFO - Going to convert document batch...
Traceback (most recent call last):
  File "C:\Users\Макс\Desktop\VS Code Projects\RAG\docling_test\docling1.py", line 10, in <module>
    result = converter.convert(source)
  File "C:\Users\Макс\Desktop\VS Code Projects\RAG\.venv\Lib\site-packages\pydantic\_internal\_validate_call.py", line 39, in wrapper_function
    return wrapper(*args, **kwargs)
  File "C:\Users\Макс\Desktop\VS Code Projects\RAG\.venv\Lib\site-packages\pydantic\_internal\_validate_call.py", line 136, in __call__
    res = self.__pydantic_validator__.validate_python(pydantic_core.ArgsKwargs(args, kwargs))
  File "C:\Users\Макс\Desktop\VS Code Projects\RAG\.venv\Lib\site-packages\docling\document_converter.py", line 237, in convert
    return next(all_res)
  File "C:\Users\Макс\Desktop\VS Code Projects\RAG\.venv\Lib\site-packages\docling\document_converter.py", line 260, in convert_all
    for conv_res in conv_res_iter:
                    ^^^^^^^^^^^^^
  File "C:\Users\Макс\Desktop\VS Code Projects\RAG\.venv\Lib\site-packages\docling\document_converter.py", line 332, in _convert
    for item in map(
                ~~~^
        process_func,
        ^^^^^^^^^^^^^
        input_batch,
        ^^^^^^^^^^^^
    ):
    ^
  File "C:\Users\Макс\Desktop\VS Code Projects\RAG\.venv\Lib\site-packages\docling\document_converter.py", line 379, in _process_document
    conv_res = self._execute_pipeline(in_doc, raises_on_error=raises_on_error)
  File "C:\Users\Макс\Desktop\VS Code Projects\RAG\.venv\Lib\site-packages\docling\document_converter.py", line 415, in _execute_pipeline
    raise ConversionError(f"Input document {in_doc.file} is not valid.")
docling.exceptions.ConversionError: Input document 2408.09869v5.pdf is not valid.
-> Cannot close object, library is destroyed. This may cause a memory leak!

Интересно, что тот же код успешно выполняется на другом компьютере. В чем может быть проблема и как ее исправить?

Детали проблемы:

Библиотека: Docling
Операция: Конвертация PDF в Markdown
Ошибка: RuntimeError: filename does not exists и ConversionError: Input document is not valid
Контекст: Код работает на одном компьютере, но не работает на другом

Возможные причины:

Проблема с установкой или конфигурацией Docling
Отсутствие необходимых ресурсов или файлов
Конфликт версий библиотек
Проблемы с правами доступа к файлам

Компонент	Рекомендуемая версия	Минимальная версия
Docling	2.3+	2.0+
docling-parse	Последняя	1.0+
PyTorch	2.2.2+	2.0+
NumPy	2.0+	1.21+

Как исправить ошибку Docling при конвертации PDF

Как исправить ошибку при использовании Docling для конвертации PDF?

Детали проблемы:

Возможные причины:

Содержание

Основные причины ошибки

Способы решения проблемы

1. Ручная загрузка моделей

2. Переустановка Docling с очисткой

3. Использование альтернативного бэкенда

Проверка и обновление зависимостей

Настройка офлайн-режима работы

Альтернативные подходы к конвертации

1. Использование Docker-контейнера

2. Конвертация через CLI

3. Использование альтернативных библиотек

Проверка совместимости версий

Заключение

Источники