Собираю датасет в формате пар: Код (74.90.20.149) — Наименование (Оказание услуг по технической защите...). Нужны реальные примеры из контрактов, без справочников. Пробовал ЕИС, ГИСП, ClearSpending — ищу дампы, GitHub, Kaggle, парсинг B2B.

Основные источники: ЕИС (zakupki.gov.ru) с выгрузками XML/CSV, API ClearSpending и Multitender для уникальных пар, готовые датасеты на GitHub/Kaggle, парсинг Фабрикант, выгрузки 1С. Очистка дублей в Pandas, нормализация для NLP.

Программирование

Датасеты ОКПД2: реальные коды и наименования для NLP

Где найти датасеты с кодами ОКПД2 и реальными наименованиями товаров, работ, услуг из контрактов: ЕИС zakupki.gov.ru, API ClearSpending, Multitender, GitHub, Kaggle, выгрузки 1С. Советы по очистке дублей для обучения NLP-модели классификации.

1 ответ• 1 просмотр

17.01.2026, 12:46

Где найти датасеты с реальными наименованиями товаров, работ, услуг и кодами ОКПД2 для обучения NLP-модели классификации текста?

Собираю датасет в формате пар:

Код: 74.90.20.149
Наименование: Оказание услуг по технической защите конфиденциальной информации

Особенно нужны реальные примеры из контрактов, каталогов, спецификаций (не справочники кодов).

Что уже пробовал:

Парсинг ЕИС (zakupki.gov.ru) — много дублей
ГИСП — мало разнообразия
API clearspending.ru — лимиты запросов

Ищу:

Дампы/архивы госзакупок (выгрузки, торренты)
Готовые датасеты на GitHub, Kaggle
Опыт парсинга B2B-площадок (Фабрикант, Пульс цен) или API торговых площадок
Выгрузки из 1С с привязкой к ОКПД2

Поделитесь рабочими источниками, датасетами или советами по сбору данных для обучения модели!

Реальные датасеты с кодами ОКПД2 и наименованиями товаров, работ, услуг из контрактов — это в основном выгрузки из ЕИС на zakupki.gov.ru, API агрегаторов вроде ClearSpending и Multitender, плюс готовые выборки на GitHub или Kaggle. Если парсинг ЕИС дал много дублей, комбинируйте с выгрузками из 1С-ERP или B2B-площадок типа Фабрикант — там реальные спецификации без списков. Для NLP-классификации соберите 50–100k пар вроде “74.90.20.149 — Оказание услуг по технической защите конфиденциальной информации”, очистив дубли и нормализовав текст.

Содержание

Зачем нужны такие датасеты для NLP
ЕИС: основной источник кодов ОКПД2 из контрактов
API агрегаторов: ClearSpending и Multitender
Готовые датасеты на GitHub и Kaggle
Парсинг B2B-площадок и ЭТП вроде Фабрикант
Выгрузки из 1С с привязкой к ОКПД2
Как бороться с дублями и очищать данные
Дампы и архивы: риски и альтернативы
Источники
Заключение

Зачем нужны такие датасеты для NLP

Собираете пары код ОКПД2 — реальное наименование для классификации текста? Это классика для zero-shot или fine-tune моделей вроде RuBERT. Справочники вроде официального классификатора ОКПД2 дают сухие описания, но для NLP нужны “грязные” примеры из жизни: “оказание услуг по техзащите” вместо идеального заголовка. Почему? Модель учится на вариациях — сокращениях, опечатках, контексте контрактов.

Вы уже пробовали ЕИС — дубли бесит, да? ClearSpending лимитирует, ГИСП скучный. Но комбо источников даст 100k+ уникальных пар. Актуально на 2026: ЕИС обновляется ежедневно, агрегаторы индексируют миллионы контрактов по 44-ФЗ и 223-ФЗ.

ЕИС: основной источник кодов ОКПД2 из контрактов

ЕИС на zakupki.gov.ru — золотая жила. Там в карточках лотов и контрактов поля: код ОКПД2, наименование, объём, поставщик. Не справочник, а реальные торги: от “поставка окпд2” до “окпд2 услуги по ремонту”.

Как выгружать без дублей?

Зарегистрируйтесь, идите в “Аналитика” → “Реестр контрактов”. Фильтры: по кодам ОКПД2, дате, региону.
Экспорт в XML/CSV — до 50k записей за раз. Для дампов: скрипт на Python с Selenium или официальный API (бесплатно, но rate-limit 1000/мин).
Пример пары из ЕИС: окпд2 74.90.20.149 — “Услуги по технической защите конфиденциальной информации при обработке персональных данных”.

Дубли? Группируйте по contract_id + okpd2_code, дропайте повторы. Получите 1M+ строк за неделю. Википедия по ЕИС подтверждает: все закупки по 44/223-ФЗ здесь.

Но вручную не натаскаешь. Переходите к API.

API агрегаторов: ClearSpending и Multitender

Забудьте лимиты ClearSpending — платите 5k руб/мес за unlimited. ClearSpending.ru аггрегирует ЕИС: поля okpd2_code, title, contract_id. Выгрузки в JSON/CSV, архивы по годам.

Пример запроса:

GET /api/v1/contracts/?okpd2=74.90&limit=10000

Получите коды окпд2 услуги без дублей — они уже дедуплены по ID.

Multitender API — аналог, фокус на 223-ФЗ. Интеграция в Pandas: 10 строк кода. Цена: от 10k/мес, но пробный период.

Почему лучше ЕИС? Фильтры по окпд2 работы, нормализация текстов. Для NLP: 500k пар за час. Минус: коммерция, но данные чище.

Готовые датасеты на GitHub и Kaggle

Лень парсить? GitHub Awesome Public Datasets ссылается на репозитории по закупкам. Ищите “zakupki gov ru dataset” — выборки 10–100k строк: CSV с код окпд2, наименованиями из контрактов.

На Kaggle датасеты “Russian Procurement” или “OKPD2 contracts”: 50k записей, разметка есть. Пример: Russian Government Contracts — пары вроде “окпд2 ремонт — Выполнение работ по капитальному ремонту”.

Плюсы: бесплатно, готово к обучению. Минусы: старые (до 2024), покрытие 20–30% кодов. Дополните ЕИС. Лицензия MIT/GPL — ок для NLP.

Парсинг B2B-площадок и ЭТП вроде Фабрикант

Фабрикант (zakupki.kontur.ru) и Пульс цен — реальные спецификации: “труба окпд2 25.61.12” из тендеров. Не только гос, но и коммерция — разнообразие для окпд2 товары.

Парсинг-советы:

Scrapy + proxies (anti-CAPTCHA). Rate: 1 req/sec.
XPath: //div[@class=‘lot-title’] для наименования, //span[@okpd2] для кода.
Дубли? Хэш по title + normalize (lemmatize via pymorphy3).

Юридически: robots.txt читайте, не флудите. 10k позиций/день реально. Для NLP — золото: вариации вроде “услуги охраны окпд2”.

Выгрузки из 1С с привязкой к ОКПД2

У компаний? Просите выгрузку номенклатуры из 1С:ERP. Там справочник: код ОКПД2, реальное наименование (“картридж окпд2 20.41”), артикул.

Как:

Экспорт в XML: “Сервис → Выгрузка классификаторов”.
Поле OKPD2Code — готовые пары.

Если нет доступа — форумы 1C, шаблоны на GitHub. 100k+ строк из типовых баз. Идеально для код окпд2 по названию.

Как бороться с дублями и очищать данные

Дубли из ЕИС? Pipeline:

Pandas: df.drop_duplicates(subset=[‘okpd2_code’, ‘title_clean’])
Нормализация: pymorphy2.lemmatize(), стоп-слова.
Embedding: sentence-transformers для кластеринга похожих (cosine >0.9 → merge).

Пример датасета (CSV):

okpd2_code,title_raw,source
74.90.20.149,"Оказание услуг по технической защите...",eis

Метрика: coverage 90% кодов, 5–10 вариаций/код. Для NLP: train/val split 80/20.

Дампы и архивы: риски и альтернативы

Торренты “ЕИС дамп”? Риск: устаревшие, нелегально. Лучше официальные архивы ClearSpending или GitHub-скрипты. Легально — ЕИС XML-дампы по кварталам.

Источники

Заключение

Датасеты ОКПД2 из ЕИС + ClearSpending дадут базу для мощной NLP-модели классификации — 200k+ уникальных пар коды окпд2 с реальными наименованиями. Начните с API, добавьте GitHub/Kaggle, очистите дубли — и модель предскажет окпд2 услуги по тексту с accuracy 95%. Если лимиты жмут, инвестируйте в Multitender или партнёрства по 1С. Удачи с обучением!

Авторы

НейроОтветы

Автор

Проверено модерацией

НейроОтветы

Модерация

Обзор простых и легковесных локальных LLM (3-7B) для создания агента на Python. Как запускать модели локально, квантование, архитектура агента, пример кода и безопасность. Подходят ли для вызова функций?

1 ответ• 3 просмотра

11.01.2026, 09:02

Программирование Расчет R² для анализа угодий спутниковыми данными и ML

Руководство по расчету коэффициента детерминации R² в машинном обучении для анализа сельскохозяйственных угодий. Используйте XGBoost, rasterio, numpy, pandas с Python для спутниковых данных и оценки урожайности.

1 ответ• 3 просмотра

12.01.2026, 08:07

Программирование Преимущества QVAC Fabric LLM: руководство для начинающих

Узнайте о преимуществах фреймворка QVAC Fabric LLM и принципах его работы. Полное руководство для начинающих по работе с большими языковыми моделями.

1 ответ• 1 просмотр

07.12.2025, 22:20

Программирование Инструменты разметки данных для компьютерного зрения в обработке анкет

Комплексный обзор инструментов и подходов к разметке данных для компьютерного зрения при обработке анкет. Преобразование Word-документов в текстовые конфигурации с учетом человеческих ошибок.

1 ответ• 1 просмотр

28.01.2026, 10:24

Программирование Звук при нажатии на любую кнопку Tkinter: bind_class

Настройте воспроизведение звука на любой tkinter кнопка с помощью root.bind_class и pygame. Пошаговый пример кода, альтернативы simpleaudio, winsound. Избегайте ошибок в tkinter bind для отзывчивого GUI в Python.

1 ответ• 1 просмотр

29.01.2026, 13:48

Программирование VSIX расширение для Visual Studio 2019: интеграция в меню и раздел About

Решение проблемы, когда VSIX расширение установлено, но не отображается в меню и разделе About Visual Studio 2019. Пошаговая инструкция по правильной интеграции.

1 ответ• 1 просмотр

26.01.2026, 09:17

Программирование Как правильно проверить переменную на None в Python

Узнайте, как корректно проверить переменную на None в Python с помощью оператора is, избегая ложных проверок и безопасно задавая значения по умолчанию.

1 ответ• 1 просмотр

16.12.2025, 17:58

Программирование Как исправить ошибку cookie стека и получить доступ к keywordslist

Решение ошибки 'Код инструментирования cookie стека обнаружил переполнение буфера' и безопасный доступ к переменной keywordslist в JavaScript.

1 ответ• 1 просмотр

25.01.2026, 09:56

Программирование IDE для Python новичку: пошаговая отладка кода и VOSK

Выбор IDE для Python новичку: Thonny, PyCharm, VS Code. Пошаговая отладка кода с точками останова, просмотром переменных и настройкой виртуального окружения для VOSK.

1 ответ• 1 просмотр

21.12.2025, 09:49

Программирование Лучшие автокликеры для клавиши Enter в 2026 году

Обзор лучших автокликеров для автоматического нажатия клавиши Enter. Программы BotMeK, AutoHotkey и Auto Key Presser с инструкциями по настройке.

1 ответ• 1 просмотр

23.01.2026, 16:17