Устранение ошибки No Global Metrics в Custom Extractor

Question

Обучение пользовательского извлекателя Google Document AI завершается ошибкой «Нет глобальных метрик» (Ошибка 13) при использовании схемы родитель/детей FormField

Я пытаюсь обучить пользовательский извлекатель Google Document AI для обнаружения пустых полей форм в PDF и возврата их геометрии, чтобы мой клиент iOS мог их заполнить.

Цель

Для каждого поля формы в PDF я хочу, чтобы процессор возвращал:

Тип поля (текст/чекбокс/дата/и т.д.)
Читаемый человеком ярлык
Ограничивающий прямоугольник области значения (где пользователь пишет/подписывается/проверяет)
При желании ограничивающий прямоугольник ярлыка

Идея такова: процессор обнаруживает расположение пустых полей, а клиентское приложение использует это для наложения нативного UI и заполнения их.

Текущая схема

Я использую пользовательский извлекатель с этой схемой:

Родительская сущность: FormField
- Метод: EXTRACT
- Встречаемость: опционально множественная
- Описание: «Один пустой или заполненный вводной поле в PDF‑форме. Включает его область значения и при необходимости рядом ярлык.»
Дети FormField:
- label – Простой текст, EXTRACT, требуется один раз
- fieldType – Простой текст, DERIVE, требуется один раз

Набор данных

~20 документов (те же шаблоны, которые я успешно обучал ранее с более простой схемой)
Все документы помечены программно и импортированы без автопометки
Разделение данных: обучение 16, тест 4
Количество меток в UI:
- FormField: 1140
- label: 1140
- fieldType: 1140

Ошибка

Обучение завершается с кодом ошибки 13. Сообщение об ошибке указывает:

«Оценка с ID cde-harvester-pipeline_0_0 не имела глобальных метрик; не удалось вычислить метаданные ProcessorVersion».

Ранее я получил более понятную ошибку валидации о недостающем boundingPoly для сущностей fieldType, которую я исправил, добавив boundingPoly к fieldType.pageAnchor (используя область значения). Ошибки «Недопустимый набор данных» исчезли, но теперь я получаю только внутреннюю ошибку «нет глобальных метрик» при оценке.

Что я уже пробовал

Полностью пересоздал все помеченные JSON‑файлы с нуля
Проверил, что в JSON присутствуют только 3 типа сущностей: FormField, label, fieldType
Убедился, что у каждой сущности/дети есть boundingPoly с 4 нормализованными вершинами
Пытался обучать с шаблонным и модельным тренерами
Пытался обучать только пустыми шаблонами и комбинацией пустых + заполненных форм
Убедился, что те же PDF‑файлы могут обучить другой пользовательский извлекатель (с более простой схемой) в том же проекте и регионе

Вопросы

Что именно означает «Оценка … не имела глобальных метрик» для пользовательского извлекателя?
- Указывает ли это на то, что для выбранного тестового разбиения DocAI не нашёл пригодных меток для расчёта точности/полноты?
- Или это скорее внутренняя/инфраструктурная проблема?
Поддерживается ли такая вложенная схема (родитель FormField с дочерними свойствами label, fieldType) для обучения пользовательского извлекателя?
- Вычисляются ли метрики оценки только по листовым текстовым полям?
- Есть ли известные ограничения с типами сущностей «родитель/дети», которые могут вызвать «нет глобальных метрик»?
Как лучше всего моделировать «поле + ярлык + геометрию» для пустых полей форм?
- Стоит ли «расплющивать» схему и использовать только одну сущность FormField с геометрией и текстом?
- Есть ли пример лучшей практики использования родительских сущностей с детьми для расположения/геометрии?
Есть ли способ получить более подробные логи валидации/оценки для этой версии процессора?
- Например, чтобы увидеть, сколько экземпляров ярлыка оценочный пайплайн считает для каждого типа.

Устранение ошибки No Global Metrics в Custom Extractor

Цель

Текущая схема

Набор данных

Ошибка

Что я уже пробовал

Вопросы

Contents

Понимание ошибки

Анализ дизайна схемы

Ограничения схемы родитель/дочерний

fieldType как производное свойство

Требования к полигону ограничений

Проблемы валидации набора данных

Распределение типов сущностей

Содержимое тестовых документов

Шаги устранения неполадок

1. Сгладьте структуру схемы

2. Измените метод fieldType на EXTRACT

3. Улучшите валидацию набора данных

4. Используйте шаблоны фундаментальных моделей

Альтернативные подходы к схеме

Одна сущность с несколькими свойствами

Отдельные сущности для каждого компонента

Получение подробных логов

Cloud Logging

Метаданные операции

Ручная оценка

Вывод