Датасеты ОКПД2: реальные коды и наименования для NLP
Где найти датасеты с кодами ОКПД2 и реальными наименованиями товаров, работ, услуг из контрактов: ЕИС zakupki.gov.ru, API ClearSpending, Multitender, GitHub, Kaggle, выгрузки 1С. Советы по очистке дублей для обучения NLP-модели классификации.
Где найти датасеты с реальными наименованиями товаров, работ, услуг и кодами ОКПД2 для обучения NLP-модели классификации текста?
Собираю датасет в формате пар:
- Код: 74.90.20.149
- Наименование: Оказание услуг по технической защите конфиденциальной информации
Особенно нужны реальные примеры из контрактов, каталогов, спецификаций (не справочники кодов).
Что уже пробовал:
- Парсинг ЕИС (zakupki.gov.ru) — много дублей
- ГИСП — мало разнообразия
- API clearspending.ru — лимиты запросов
Ищу:
- Дампы/архивы госзакупок (выгрузки, торренты)
- Готовые датасеты на GitHub, Kaggle
- Опыт парсинга B2B-площадок (Фабрикант, Пульс цен) или API торговых площадок
- Выгрузки из 1С с привязкой к ОКПД2
Поделитесь рабочими источниками, датасетами или советами по сбору данных для обучения модели!
Реальные датасеты с кодами ОКПД2 и наименованиями товаров, работ, услуг из контрактов — это в основном выгрузки из ЕИС на zakupki.gov.ru, API агрегаторов вроде ClearSpending и Multitender, плюс готовые выборки на GitHub или Kaggle. Если парсинг ЕИС дал много дублей, комбинируйте с выгрузками из 1С-ERP или B2B-площадок типа Фабрикант — там реальные спецификации без списков. Для NLP-классификации соберите 50–100k пар вроде “74.90.20.149 — Оказание услуг по технической защите конфиденциальной информации”, очистив дубли и нормализовав текст.
Содержание
- Зачем нужны такие датасеты для NLP
- ЕИС: основной источник кодов ОКПД2 из контрактов
- API агрегаторов: ClearSpending и Multitender
- Готовые датасеты на GitHub и Kaggle
- Парсинг B2B-площадок и ЭТП вроде Фабрикант
- Выгрузки из 1С с привязкой к ОКПД2
- Как бороться с дублями и очищать данные
- Дампы и архивы: риски и альтернативы
- Источники
- Заключение
Зачем нужны такие датасеты для NLP
Собираете пары код ОКПД2 — реальное наименование для классификации текста? Это классика для zero-shot или fine-tune моделей вроде RuBERT. Справочники вроде официального классификатора ОКПД2 дают сухие описания, но для NLP нужны “грязные” примеры из жизни: “оказание услуг по техзащите” вместо идеального заголовка. Почему? Модель учится на вариациях — сокращениях, опечатках, контексте контрактов.
Вы уже пробовали ЕИС — дубли бесит, да? ClearSpending лимитирует, ГИСП скучный. Но комбо источников даст 100k+ уникальных пар. Актуально на 2026: ЕИС обновляется ежедневно, агрегаторы индексируют миллионы контрактов по 44-ФЗ и 223-ФЗ.
ЕИС: основной источник кодов ОКПД2 из контрактов
ЕИС на zakupki.gov.ru — золотая жила. Там в карточках лотов и контрактов поля: код ОКПД2, наименование, объём, поставщик. Не справочник, а реальные торги: от “поставка окпд2” до “окпд2 услуги по ремонту”.
Как выгружать без дублей?
- Зарегистрируйтесь, идите в “Аналитика” → “Реестр контрактов”. Фильтры: по кодам ОКПД2, дате, региону.
- Экспорт в XML/CSV — до 50k записей за раз. Для дампов: скрипт на Python с Selenium или официальный API (бесплатно, но rate-limit 1000/мин).
- Пример пары из ЕИС: окпд2 74.90.20.149 — “Услуги по технической защите конфиденциальной информации при обработке персональных данных”.
Дубли? Группируйте по contract_id + okpd2_code, дропайте повторы. Получите 1M+ строк за неделю. Википедия по ЕИС подтверждает: все закупки по 44/223-ФЗ здесь.
Но вручную не натаскаешь. Переходите к API.
API агрегаторов: ClearSpending и Multitender
Забудьте лимиты ClearSpending — платите 5k руб/мес за unlimited. ClearSpending.ru аггрегирует ЕИС: поля okpd2_code, title, contract_id. Выгрузки в JSON/CSV, архивы по годам.
Пример запроса:
GET /api/v1/contracts/?okpd2=74.90&limit=10000
Получите коды окпд2 услуги без дублей — они уже дедуплены по ID.
Multitender API — аналог, фокус на 223-ФЗ. Интеграция в Pandas: 10 строк кода. Цена: от 10k/мес, но пробный период.
Почему лучше ЕИС? Фильтры по окпд2 работы, нормализация текстов. Для NLP: 500k пар за час. Минус: коммерция, но данные чище.
Готовые датасеты на GitHub и Kaggle
Лень парсить? GitHub Awesome Public Datasets ссылается на репозитории по закупкам. Ищите “zakupki gov ru dataset” — выборки 10–100k строк: CSV с код окпд2, наименованиями из контрактов.
На Kaggle датасеты “Russian Procurement” или “OKPD2 contracts”: 50k записей, разметка есть. Пример: Russian Government Contracts — пары вроде “окпд2 ремонт — Выполнение работ по капитальному ремонту”.
Плюсы: бесплатно, готово к обучению. Минусы: старые (до 2024), покрытие 20–30% кодов. Дополните ЕИС. Лицензия MIT/GPL — ок для NLP.
Парсинг B2B-площадок и ЭТП вроде Фабрикант
Фабрикант (zakupki.kontur.ru) и Пульс цен — реальные спецификации: “труба окпд2 25.61.12” из тендеров. Не только гос, но и коммерция — разнообразие для окпд2 товары.
Парсинг-советы:
- Scrapy + proxies (anti-CAPTCHA). Rate: 1 req/sec.
- XPath: //div[@class=‘lot-title’] для наименования, //span[@okpd2] для кода.
- Дубли? Хэш по title + normalize (lemmatize via pymorphy3).
Юридически: robots.txt читайте, не флудите. 10k позиций/день реально. Для NLP — золото: вариации вроде “услуги охраны окпд2”.
Выгрузки из 1С с привязкой к ОКПД2
У компаний? Просите выгрузку номенклатуры из 1С:ERP. Там справочник: код ОКПД2, реальное наименование (“картридж окпд2 20.41”), артикул.
Как:
- Экспорт в XML: “Сервис → Выгрузка классификаторов”.
- Поле OKPD2Code — готовые пары.
Если нет доступа — форумы 1C, шаблоны на GitHub. 100k+ строк из типовых баз. Идеально для код окпд2 по названию.
Как бороться с дублями и очищать данные
Дубли из ЕИС? Pipeline:
- Pandas: df.drop_duplicates(subset=[‘okpd2_code’, ‘title_clean’])
- Нормализация: pymorphy2.lemmatize(), стоп-слова.
- Embedding: sentence-transformers для кластеринга похожих (cosine >0.9 → merge).
Пример датасета (CSV):
okpd2_code,title_raw,source
74.90.20.149,"Оказание услуг по технической защите...",eis
Метрика: coverage 90% кодов, 5–10 вариаций/код. Для NLP: train/val split 80/20.
Дампы и архивы: риски и альтернативы
Торренты “ЕИС дамп”? Риск: устаревшие, нелегально. Лучше официальные архивы ClearSpending или GitHub-скрипты. Легально — ЕИС XML-дампы по кварталам.
Источники
- ЕИС Zakupki.gov.ru
- Wikipedia: ЕИС
- Multitender API
- ClearSpending
- GitHub Awesome Datasets
- Kaggle Datasets
- Контур.Закупки Фабрикант
- 1С Документация
Заключение
Датасеты ОКПД2 из ЕИС + ClearSpending дадут базу для мощной NLP-модели классификации — 200k+ уникальных пар коды окпд2 с реальными наименованиями. Начните с API, добавьте GitHub/Kaggle, очистите дубли — и модель предскажет окпд2 услуги по тексту с accuracy 95%. Если лимиты жмут, инвестируйте в Multitender или партнёрства по 1С. Удачи с обучением!