Поиск дубликатов по размеру с погрешностью
Select messages from
# through # FAQ
[/[Print]\]

Total Commander -> Общие вопросы

#1: Поиск дубликатов по размеру с погрешностью Author: oyx147 PostPosted: Sun Apr 18, 2021 13:41
    —
Всем привет!

Есть ли возможность настроить погрешность при поиске дубликатов по размеру? К примеру у одного файла размер 25 507 килобайт, а у другого 25 505. Содержимое-то и одно и то же, просто взято из разных источников и лежит в одной куче.

#2:  Author: AvadaLocation: Россия, Саратов PostPosted: Sun Apr 18, 2021 14:07
    —
oyx147
При поиске дубликатов — не настраивается. (И каким образом, интересно, вы установили, что файлы с разным размером полностью одинаковы? Последнего переноса строки в одном месте нет?)

#3:  Author: Skif_off PostPosted: Sun Apr 18, 2021 14:37
    —
Avada
По идее, в MP3, например, теги в формате ID3v2 (они вроде обычно в начале файла): очистить какой-нибудь или добавить - размер и контрольная сумма изменятся (или только второе, если, например, опечатку исправили или теги ID3v1), но собственно содержимое то же.
Хотя пример так себе, ТС же не будет вырезать теги и сравнивать...

#4:  Author: oyx147 PostPosted: Sun Apr 18, 2021 14:42
    —
Avada wrote:
oyx147
При поиске дубликатов — не настраивается. (И каким образом, интересно, вы установили, что файлы с разным размером полностью одинаковы? Последнего переноса строки в одном месте нет?)


Это pdf-файлы в основном. За счет чего отличие - черт его знает. Я открывал и сравнивал. Просто когда их за тысячу с хреном - очень муторно их разгребать. Думал что хоть так себе задачу облегчу.

#5:  Author: AvadaLocation: Россия, Саратов PostPosted: Sun Apr 18, 2021 15:18
    —
Skif_off wrote:
ТС же не будет вырезать теги и сравнивать...
Вот именно.

oyx147
Непохоже, что вы себе что-то облегчите. Сравнение дубликатов как таковое совпадений не выявит, а сравнивать по порядку каждую пару... Впрочем, мне иногда приходится что-то подобное делать. Например, при сравнениии разных версий HTM-файлов, составляющих справку TC. И на уровне самого текста, и — при необходимости — с тегами, если текст одинаков, а файлы всё-таки разные. Но это уже совсем другой инструментарий.

#6:  Author: МоторокерLocation: г. Пермь (читается Перьмь) PostPosted: Wed Apr 28, 2021 13:27
    —
Теоретически можно в сравнение добавить поле процентов.
Если в конце или начале что-то добавить, в середине пару байт поменять.

Но если изменений несколько, да ещё со сдвигом, это не поможет. Тут уже мощнее алгоритмы нужны. Скорее всего есть спецсофт для этого.

В своё время пользовался программой BinDiff вроде называется, вот она мощно сравнивала.

Только какой-нибудь контентный плагин. Например из PDF будет вытаскивать тексты/строки и сравнивать их.



Total Commander -> Общие вопросы


output generated using printer-friendly topic mod. All times are GMT + 4 Hours

Page 1 of 1

Powered by phpBB © 2001, 2005 phpBB Group