Вычислительная сложность задачи выбора типичных представителей в конечном множестве точек метрического пространства
Вычислительная сложность задачи выбора типичных представителей в конечном множестве точек метрического пространства
Аннотация:
Исследуется сложностной статус одной экстремальной задачи выбора подмножества $p$ наиболее типичных точек в заданном конечном множества точек метрического пространства. При этом требуется, чтобы выбранное подмножество наилучшим образом описывало исходное множество с точки зрения некоторого геометрического критерия. Рассматриваемая задача является формализацией одной прикладной проблемы из анализа данных, заключающейся в отыскании подмножества типичных представителей выборки с опорой на функцию конкурентного сходства. В статье доказывается, что рассматриваемая задача NP-трудна. Для этого к ней полиномиально сводится одна из NP-трудных задач — задача о трёхмерном сочетании.
Ил. 1, библиогр. 14.
Литература:
- Zagoruiko N. G., Borisova I. A., Dyubanov V. V., Kutnenko O. A. Methods of recognition based on the function of rival similarity // Pattern Recognit. Image Anal. 2008. V. 18, No. 1. P. 1–6.
- Борисова И. А. Вычислительная сложность задачи выбора типичных представителей в 2-разбиении конечного множества точек метрического пространства // Дискрет. анализ и исслед. операций. 2020. Т. 27, № 2. С. 5–16.
- Кутненко О. А., Плясунов А. В. NP-трудность некоторой задачи цензурирования данных // Дискрет. анализ и исслед. операций. 2021. Т. 28, № 2. С. 60–73.
- Кутненко О. А. Вычислительная сложность двух задач когнитивного анализа данных // Дискрет. анализ и исслед. операций. 2022. Т. 29, № 1. С. 18–32.
- Aloise D., Deshpande A., Hansen P., Popat P. NP-hardness of Euclidean sum-of-squares clustering // Machine Learn. 2009. V. 75, No. 2. P. 245–248.
- Dasgupta S. The hardness of $k$-means clustering. Tech. Rep. CS2007-0890. San Diego, CA: Univ. California, 2008. 6 p.
- Papadimitriou C. H. Worst-case and probabilistic analysis of a geometric location problem // SIAM J. Comput. 1981. V. 10, No. 3. P. 542–557.
- Har-Peled S., Mazumdar S. On coresets for $k$-means and $k$-median clustering and their applications // Proc. 36th Annu. ACM Symp. Theory of Computing (Chicago, USA, June 13–16, 2004). New York: ACM, 2004. P. 291– 300.
- Kaufman L., Rousseeuw P. J. Clustering by means of medoids // Statistical data analysis based on the $L_1$-norm and related methods. Amsterdam: North Holland, 1987. P. 405–416.
- Кельманов А. В., Пяткин А. В., Хандеев В. И. О сложности некоторых максиминных задач кластеризации // Тр. Ин-та математики и механики. 2018. Т. 24, № 4. C. 189–198.
- Кельманов А. В., Пяткин А. В. NP-трудность некоторых евклидовых задач разбиения конечного множества точек // Журн. вычисл. математики и мат. физики. 2018. Т. 58, № 5. C. 852–856.
- Aggarwal H., Imai N., Katoh N., Suri S. Finding $k$ points with minimum diameter and related problems // J. Algorithms. 1991. V. 12, No. 1. P. 38–56.
- Zukhba A. V. NP-completeness of the problem of prototype selection in the nearest neighbor method // Pattern Recognit. Image Anal. 2010. V. 20, No. 4. P. 484–494.
- Karp R. M. Reducibility among combinatorial problems // Complexity of computer computations. Proc. Symp. (New York, USA, March 20–22, 1972). New York: Plenum Press, 1972. P. 85–103.
Исследование выполнено при финансовой поддержке Российского фонда фундаментальных исследований (проект № 17–01–00710). Дополнительных грантов на проведение или руководство этим исследованием получено не было.
Борисова Ирина Артёмовна
- Институт математики им. С. Л. Соболева,
пр. Акад. Коптюга, 4, 630090 Новосибирск, Россия - Новосибирский гос. университет,
ул. Пирогова, 2, 630090 Новосибирск, Россия
E-mail: biamia@mail.ru
Статья поступила 3 сентября 2024 г.
После доработки — 16 сентября 2024 г.
Принята к публикации 22 сентября 2024 г.
Abstract:
We analyze the complexity of one extremal problem of choosing a subset of $p$ points in a given finite set in a metric space. The chosen subset of points is required to describe given clusters in the best way from the point of view of some geometric criterion. This problem is a formalization of one applied problem from data mining that consists in finding a subset of typical representatives of a dataset based on the rival similarity function of. We prove that the problem under consideration is NP-hard by polynomially reducing the well-known NP-hard 3D-Matching problem to this one.
Illustr. 1, bibliogr. 14.
References:
- N. G. Zagoruiko, I. A. Borisova, V. V. Dyubanov, and O. A. Kutnenko, Methods of recognition based on the function of rival similarity, Pattern Recognit. Image Anal. 18 (1), 1–6 (2008).
- I. A. Borisova, Computational complexity of the problem of choosing typical representatives in a 2-clustering of a finite set of points in a metric space, Diskretn. Anal. Issled. Oper. 27 (2), 5–16 (2020) [Russian] [J. Appl. Ind. Math. 14 (2), 242–248 (2020)].
- O. A. Kutnenko and A. V. Plyasunov, NP-hardness of some data cleaning problem, Diskretn. Anal. Issled. Oper. 28 (2), 60–73 (2021) [Russian] [J. Appl. Ind. Math. 15 (2), 285–291 (2021)].
- O. A. Kutnenko, Computational complexity of two problems of cognitive data analysis, Diskretn. Anal. Issled. Oper. 29 (1), 18–32 (2022) [Russian] [J. Appl. Ind. Math. 16 (1), 89–97 (2022)].
- D. Aloise, A. Deshpande, P. Hansen, and P. Popat, NP-hardness of Euclidean sum-of-squares clustering, Machine Learn. 75 (2), 245–248 (2009).
- S. Dasgupta, The hardness of $k$-means clustering, Tech. Rep. CS2007-0890 (Univ. California, San Diego, CA, 2008).
- C. H. Papadimitriou, Worst-case and probabilistic analysis of a geometric location problem, SIAM J. Comput. 10 (3), 542–557 (1981).
- S. Har-Peled and S. Mazumdar, On coresets for $k$-means and $k$-median clustering and their applications, in Proc. 36th Annu. ACM Symp. Theory of Computing, Chicago, USA, June 13–16, 2004 (ACM, New York, 2004), pp. 291–300.
- L. Kaufman and P. J. Rousseeuw, Clustering by means of medoids, in Statistical Data Analysis Based on the $L_1$-Norm and Related Methods (North Holland, Amsterdam, 1987), pp. 405–416.
- A. V. Kel’manov, A. V. Pyatkin, and V. I. Khandeev, On the complexity of some max–min clustering problems, Tr. Inst. Mat. Mekh. 24 (4), 189–198 (2018) [Russian] [Proc. Steklov Inst. Math. 309 (Suppl. 1), S65–S73 (2020)].
- A. V. Kel’manov and A. V. Pyatkin, NP-hardness of some Euclidean problems of partitioning a finite set of points, Zh. Vychisl. Mat. Mat. Fiz. 58 (5), 852–856 (2018) [Russian] [Comput. Math. Math. Phys. 58 (5), 822–826 (2018)].
- H. Aggarwal, N. Imai, N. Katoh, and S. Suri, Finding $k$ points with minimum diameter and related problems, J. Algorithms 12 (1), 38–56 (1991).
- A. V. Zukhba, NP-completeness of the problem of prototype selection in the nearest neighbor method, Pattern Recognit. Image Anal. 20 (4), 484–494 (2010).
- R. M. Karp, Reducibility among combinatorial problems, in Complexity of Computer Computations (Proc. Symp., New York, USA, March 20–22, 1972) (Plenum Press, New York, 1972), pp. 85–103.