View previous topic :: View next topic |
Author |
Message |
Eprinter
Joined: 21 Feb 2020 Posts: 3
|
(Separately) Posted: Fri Feb 21, 2020 10:51 Post subject: Подготовка дубликатов для выборочной обработки |
|
|
Всем доброго дня.
Есть несколько сот тысяч файлов, преимущественно фото-видео-тексты, раскиданные по многочисленным папкам на нескольких дисках. Большинство имеют дубли, трибли, и т.д. При этом есть файлы с одинаковым именем и разным содержимым. Нужно разгрести эти многолетние завалы.
Алгоритм прост:
-- файлы разделяются по типам и другим признакам (например имя из диапазона - это делается вручную, после команды "показать все файлы без подкаталогов") и сливаются в свою папку
-- если имена совпадают - проверяем размер
-- если размер разный - копируем с модификацией имени, если одинаковый - проверяем дату создания
-- если дата разная - копируем с модификацией имени, если одинаковая - не копируем
Можно этот алгоритм реализовать средствами ТС?
Периодически его использую, но возможности знаю плохо, буду благодарен за наводку. |
|
Back to top |
|
|
Avada
Joined: 01 Aug 2008 Posts: 10315 Location: Россия, Саратов
|
(Separately) Posted: Fri Feb 21, 2020 11:43 Post subject: |
|
|
Eprinter
Обратите внимание на поиск с дубликатами (с последующим уточнением выделения для последующей операции в специальном диалоге), синхронизацию каталогов и на сам диалог копирования, где при развёрнутом состоянии доступны настройки для перезаписи, особенно удобные в новейших версиях TC. Точного соответствия запрашиваемом алгоритму, впрочем, нет ни в одном из этих случаев (например, цепочки действий "если — то" отрабатываются только в диалоге для выделения нужных дубликатов, где нет копирования, вызываемого потом отдельно). Откройте и посмотрите, подходит — пользуйтесь.
Кроме того, замечу, что проверяется везде в подобных случаях не дата создания, а дата модификации. А размер и дата бывают вообще-то не "разные" а больше/меньше, и старше/младше, поэтому понять, что из дубликатов не трогать, а что копировать, в этих случаях по вашему алгоритму абсолютно нереально. _________________ Даже самая богатая фантазия
Не представит себе наши безобразия. |
|
Back to top |
|
|
Eprinter
Joined: 21 Feb 2020 Posts: 3
|
(Separately) Posted: Sat Feb 22, 2020 10:47 Post subject: |
|
|
Avada wrote: | Обратите внимание на поиск с дубликатами |
Огромное спасибо!
Прям то, что доктор прописал!! )
Очень быстро нашёл дубли (имя и размер, дату задействовать не стал), правда удаление 113229 файлов довольно медленное. Потом останется скопировать разные типы файлов в разные каталоги и "проредить" по Thumbnails. |
|
Back to top |
|
|
Avada
Joined: 01 Aug 2008 Posts: 10315 Location: Россия, Саратов
|
(Separately) Posted: Sat Feb 22, 2020 11:29 Post subject: |
|
|
Eprinter
Рад, что смог помочь. Хотя как вы по одним только критериям имени и размера смогли при таком огромном массиве файлов точно разобраться, что нужно, а что нет, мне не очень понятно. Проверка по этим критериям априорно приблизительна. Дата хотя бы позволяет понять, какой из файлов изменялся позже и уже поэтому, как правило, более актуален. Не всё просто и с содержанием. Имена могут совпасть, размеры тоже, но в файлах обнаружится разница в самих символах, а не в их количестве... Да, это требует гораздо больше времени, но это надёжно. Впрочем, вам решать. _________________ Даже самая богатая фантазия
Не представит себе наши безобразия. |
|
Back to top |
|
|
Eprinter
Joined: 21 Feb 2020 Posts: 3
|
(Separately) Posted: Sun Feb 23, 2020 15:11 Post subject: |
|
|
Да я подумал и понял, что дата модификации особого значения не имеет - основная ценность это безпорядочный фото-видео архив за много лет (не мой), а там если изменил содержимое, то размер тоже однозначно изменится. Текстов немного, их можно все отследить в ручном режиме.
Но, я писал про низкую скорость удаления. Прождал около часа, обработалось чуть более тысячи. Не дождавшись 3%, отменил задачу.
Придумал иной подход: переименовать все файлы, дописывая в конец имени их размер, и тогда при копировании можно просто пропускать все дубли. Можно дописывать и дату модификации, тогда мои требования полностью удовлетворятся ))) |
|
Back to top |
|
|
Avada
Joined: 01 Aug 2008 Posts: 10315 Location: Россия, Саратов
|
(Separately) Posted: Sun Feb 23, 2020 15:44 Post subject: |
|
|
Eprinter
Повторяю: методики выбирать вам применительно к вашим задачам. Дописывать же к имени (через инструмент группового переименования) можно много чего, но что у вас за непонятные проблемы с удалением и почему тысяча файлов должна удаляться в течение часа, не совсем понял. В конце концов, удаление в обход Корзины средствами TC (если уж вы точно определились, что удалять) работает явно быстрее, чем в неё. Но это к теме уже не совсем относится.
Кстати, тему эту я как модератор переименовываю. К настройке перезаписи файлов при копировании она сейчас имеет минимальное отношение. _________________ Даже самая богатая фантазия
Не представит себе наши безобразия. |
|
Back to top |
|
|
|
|
You cannot post new topics in this forum You cannot reply to topics in this forum You cannot edit your posts in this forum You cannot delete your posts in this forum You cannot vote in polls in this forum
|
Powered by phpBB © 2001, 2005 phpBB Group
|