У меня есть два больших набора данных. Скажем, несколько тысяч строк для набора данных V с 18 столбцами. Мне нужно найти корреляции между отдельными строками (например, строка V125 аналогична строке V569 в 18 столбцах). Но так как он большой, я не знаю, как его отфильтровать после. Другая проблема заключается в том, что у меня есть набор данных B (разная информация в моих 18 столбцах), и я хотел бы найти аналогичную закономерность между двумя наборами данных (например, строки V55 и строки B985 похожи, V3 присутствует только в том случае, если присутствует B45 и т. д...). Есть ли способ узнать? Я открыт для любых решений. PS: это мой первый вопрос, поэтому дайте мне знать, если его нужно отредактировать, или я не понимаю. Спасибо за любую помощь.
Решение проблемы
Строка V125 — это значение, возможно, вы имели в виду строку 125. Если две строки одинаковы, вы можете использовать функцию дублирования для панд или найти их в главном меню в Excel. Что касается второго вопроса, это можно сделать с помощью bash или терминала Windows для больших наборов данных, но проще всего будет объединить два набора данных. Для наборов данных из нескольких тысяч строк это очень быстро. Если вы используете кадр данных pandas, вы можете использовать функцию добавления, чтобы объединить их и найти дубликаты.
Комментариев нет:
Отправить комментарий