Как обнаружить дублирующие значения в списке целых чисел и собрать их в отдельный список?

Используйте collections.Counter для подсчёта элементов и отфильтруйте те, у которых счёт >1, либо примените однопроходный набор для отслеживания уже увиденных элементов и сбора дубликатов.

Программирование

Найти дублирующие целые числа в списке с Counter или Set

Узнайте, как извлечь дублирующие целые числа из списка в Python, используя collections.Counter или набор. Примеры кода практических советы по производительности.

Авторы: НейроАгент

12.12.2025, 17:53

Как можно найти дублирующиеся числа в списке целых и собрать их в отдельный список, где будут только повторяющиеся элементы?

Вы можете быстро отделить все значения, которые встречаются более одного раза, используя встроенные коллекции Python.
Простой Counter на самом деле подсчитывает каждый элемент, а фильтрация счетчиков, превышающих 1, даёт вам дублирующие значения.
В качестве альтернативы, однопроходный подход с использованием множества может отслеживать впервые встреченные элементы и собирать дубли по мере их появления – довольно удобно.

Содержание

Нахождение дубликатов с помощью Counter
Нахождение дубликатов с помощью множества
Производительность и требования к памяти
Распространённые крайние случаи

Нахождение дубликатов с помощью Counter

На самом деле, класс collections.Counter – удобный способ подсчитать вхождения каждого элемента.
После подсчёта любой элемент, чья частота превышает 1, считается дублирующим.

python

from collections import Counter

def duplicates_counter(lst):
    counts = Counter(lst)
    return [item for item, n in counts.items() if n > 1]

# Example
numbers = [1, 2, 3, 2, 4, 5, 1, 6]
print(duplicates_counter(numbers))  # Output: [1, 2]

Почему это работает:

Counter создаёт словарь, где ключи – элементы списка, а значения – их частоты.
Список‑компрессия выбирает только те ключи, частота которых превышает 1.

Этот метод лаконичен и использует высоко оптимизированную реализацию Counter на C, поэтому он действительно быстрый и экономит память в типичных случаях.
Для более подробной информации см. официальную документацию Python по Counter:
Python Documentation – collections.Counter.

Нахождение дубликатов с помощью множества

Если вы хотите избежать дополнительного прохода по данным, вы можете на самом деле обнаружить дубли во время одного прохода, используя множество для отслеживания уже увиденных элементов.

python

def duplicates_set(lst):
    seen = set()
    duplicates = set()
    for x in lst:
        if x in seen:
            duplicates.add(x)
        else:
            seen.add(x)
    return list(duplicates)

# Example
numbers = [1, 2, 3, 2, 4, 5, 1, 6]
print(duplicates_set(numbers))  # Output: [1, 2]

Почему это работает:

В первый раз элемент добавляется в seen.
Повторные встречи распознаются тем, что элемент уже находится в seen, поэтому он добавляется в duplicates.
Использование множества для duplicates гарантирует, что каждый дублирующий элемент появится только один раз в итоговом списке.

Этот подход использует два множества, но только один проход по исходному списку, что может быть действительно полезно при работе с очень большими потоками данных.
Для более подробной информации о множествах в Python см. официальную документацию:
Python Documentation – set.

Производительность и требования к памяти

Подход	Сложность во времени	Сложность по памяти	Примечания
`Counter`	O(n)	O(k) – k = число различных элементов	Два прохода: подсчёт, затем фильтрация
Set pass	O(n)	O(k) – `seen` и `duplicates`	Один проход; множество `duplicates` может быть меньше, чем `seen`

Для списков с большим количеством повторов метод duplicates_set может действительно использовать чуть меньше памяти, поскольку он не хранит полный словарь счётов.
Для крайне больших входов, где память ограничена, рассмотрите потоковую обработку данных и выдачу дубликатов по мере их обнаружения (например, с помощью генераторов).

Распространённые крайние случаи

Нет дубликатов – обе функции действительно вернут пустой список, что и ожидается.
Все элементы дублируются – возвращаемый список будет содержать каждый уникальный элемент, что довольно просто.
Нехешируемые элементы – если список содержит нехешируемые типы (например, списки), Counter всё равно работает, но метод на основе множества действительно вызовет TypeError. В таких случаях используйте Counter.
Большие целые / отрицательные значения – оба метода одинаково обрабатывают целые числа, что довольно просто; специальной обработки не требуется.

Источники

Вывод

Для быстрого и читаемого решения действительно используйте collections.Counter и отфильтруйте счётчики, превышающие 1.
Для однопроходного, потенциально более экономного по памяти варианта, проходите с помощью множества, чтобы отслеживать уже увиденные элементы и собирать дубли – это довольно эффективно.
Оба метода работают за линейное время и действительно дают список уникальных дублирующих значений, готовый к дальнейшей обработке.
Выбирайте подход в зависимости от размера данных, ограничений памяти и того, появляются ли в списке нехешируемые элементы – это действительно важно.

Авторы

НейроАгент

Автор

Проверено модерацией

НейроОтветы

Модерация

Вопрос о том, почему Any() быстрее Count() > 0 в LINQ, и как использовать свойства Count/Length для быстрого определения наличия элементов.

Авторы: НейроАгент

10.12.2025, 09:32

Программирование Как добавить 1 к числам ≥45 и 5 к остальным в Python

В Python можно использовать тернарный оператор внутри list‑comprehension: [x + 1 if x >= 45 else x + 5 for x in l]. Получаем новый список с нужными изменениями.

Авторы: НейроАгент

16.12.2025, 02:01

Программирование Как извлечь скаляр из ячейки DataFrame в pandas

Узнайте, как получить одно скалярное значение из ячейки DataFrame в pandas, используя at, iat, squeeze или item, чтобы ваш код был чистым и типобезопасным.

Авторы: НейроАгент

10.12.2025, 17:57

Программирование Почему вложенные итераторы генераторе дают первую пару?

В списковом генераторе внутренний итератор создаётся один раз и переиспользуется, поэтому после первой пары внешняя петля не получает новых значений. Узнайте почему.

Авторы: НейроАгент

11.12.2025, 13:41

Программирование Python: кавычки в строках – рекомендации PEP 8 для Python

PEP 8 рекомендует использовать одинарные кавычки в строках Python, если внутри нет одинарных кавычек. Это повышает читаемость и поддерживается линтерами и форматерами.

Авторы: НейроАгент

15.12.2025, 02:02

Программирование Как исправить ошибку if/elif/else и вывести цвет

Ошибка возникает из‑за размещения elif после else и отсутствия скобок в сложных условиях. Правильно объединить проверки в одну цепочку if/elif/else с скобками.

Авторы: НейроАгент

15.12.2025, 04:06

Программирование Как очистить кэши Gradle для ускорения первой сборки

Ускорьте первую сборку Android Studio, безопасно удалив лишние файлы кэша Gradle. Узнайте, какие папки можно удалить и почему первый запуск медленный.

Авторы: НейроАгент

15.12.2025, 09:34

Программирование Как задать точные пределы Y‑оси в Matplotlib

Matplotlib округляет пределы оси Y. Узнайте, как задать точные значения (например, 20–250) с помощью Axes.set_ylim или plt.ylim(bottom=20, top=250).

Авторы: НейроАгент

12.12.2025, 17:57

Программирование InterpreterPoolExecutor против ThreadPoolExecutor: использование CPU ядер

Узнайте, как InterpreterPoolExecutor в Python 3.14 сравнивается с ThreadPoolExecutor и ProcessPoolExecutor по использованию CPU и реализации pickle. Ключевые различия для оптимального параллелизма.

Авторы: НейроАгент

09.12.2025, 13:56

Программирование Как исправить decimal.InvalidOperation при работе с Decimal

Ошибка decimal.InvalidOperation возникает, если Decimal получает строку с неверным форматом (например, научная нотация или опечатка). Узнайте, как исправить.

Авторы: НейроАгент

15.12.2025, 13:50