У меня есть список подписей с большим количеством почти дубликатов. Например:
- день рождения для нее
- На Ее День Рождения
- День Рождения - Для Нее
- На День Рождения
Я рассматривал нечеткий поиск как способ выделения этих почти дубликатов
У меня есть список подписей с большим количеством почти дубликатов. Например:
Я рассматривал нечеткий поиск как способ выделения этих почти дубликатов
надстройка нечеткого поиска для Excel выполняет нечеткое сопоставление текстовых данных в Excel.
надстройка нечеткого поиска для Excel была разработана Microsoft Research и выполняет нечеткое сопоставление текстовых данных в Microsoft Excel.
Он может быть использован для выявления нечетких дубликатов строк в одна таблица или для нечеткого соединения одинаковых строк между двумя разными таблицами. Тот подбор надежного множество ошибок в том числе орфографических ошибки, аббревиатуры, синонимы и добавленные / отсутствующие данные.
например, он может обнаружить, что строки "мистер Эндрю Хилл", " Хилл, Эндрю р." и "Энди Хилл" все относятся к одной и той же базовой сущности, возврат оценки сходства вместе с каждым совпадением.
пока конфигурация по умолчанию работает хорошо для широкого разнообразие текстовые данные, такие как названия продуктов или адреса клиентов, соответствие также может быть настроено для определенных доменов или языков.
Source надстройка нечеткого поиска для Excel
выполнение нечетких поисков в Excel имеет некоторые подсказки по настройке порога подобия.
Постоянная ссылка на данную страницу: [ Скопировать ссылку | Сгенерировать QR-код ]