Обобщенный алгоритм поиска выбросов в регрессионной модели
УДК 510.5
DOI:
https://doi.org/10.14258/izvasu(2021)4-16Ключевые слова:
линейная регрессия, метод наименьших квадратов, метод наименьших модулей, статистические выбросыАннотация
Одним из активно развивающихся направлений современных вычислительных задач является анализ данных. Изучаемые данные обладают различной структурой, что вызывает определенные трудности в процессе их сглаживания и анализа. Это влечет за собой потребность поиска новых универсальных алгоритмов обработки данных, создания компьютерных программ, обеспечивающих анализ данных различной природы. На сегодняшний день широко применяемым методом обработки данных является регрессионное моделирование. Оно применяется в задачах распознавания образов, классификации, снижения размерности и многих других. Очень важным требованием к качеству таких моделей является отсутствие в данных резко выделяющихся наблюдений (выбросов).
В представленной статье рассматривается метод исследования выборки на предмет выбросов. Полученный алгоритм может быть применен к регрессионным моделям, оцениваемым наиболее распространенными методами (метод наименьших квадратов, метод наименьших модулей). Математической основой данной процедуры является преобразование Лежандра, что обеспечивает при компьютерной реализации вычислительную точность. Адекватность полученного алгоритма была исследована на ряде тестовых выборок. Все испытания дали положительный результат с точки зрения определения выбросов. Был создан комплекс программ в системе MatLab, который позволяет строить различные регрессионные модели, а также оценивать исходную выборку на предмет резко выделяющихся наблюдений.
Скачивания
Библиографические ссылки
Мудров В.И., Кушко В.Л. Метод наименьших модулей. М., 1971.
Armstrong R.D., Kung D.S. Algorithm AS132: Least absolute value estimates for a simple linear regression problem // Appl. Stat. 1978. Vol. 7.
Weisberg S. Applied linear regression. 3rd ed. Jonh Wiley & Sans, Inc., 2005.
Мостеллер Ф., Тьюки Дж. Анализ данных и регрессия / пер. с англ. М., 1982. Вып. 1, 2.
Cook R.D. Detection of Influential Observation in Linear Regression // Technometrics. 1977. Vol. 19(1).
Andrews D.F., Pregibоn D. Finding the outliers that matter // Journal of the Royal Statistical Society. 1978. Vol. 40.
Пономарев И.В., Саженкова Т.В., Славский В.В. Метод поиска экстремальных наблюдений в задаче нечеткой регрессии // Известия Алт. гос. ун-та. 2018. № 4(102). DOI: 10.14258/izvasu(2021)1-17.
Arthur Zimek, Peter Filzmoser. There and back again: Outlier detection between statistical reasoning and data mining algorithms // Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery 2018. Vol. 8. № 6. DOI: 10.1002/widm.1280.
Campello R.J.G.B., Moulavi D., Zimek A., Sander J. Hierarchical Density Estimates for Data Clustering, Visualization, and Outlier Detection // ACM Transactions on Knowledge Discovery from Data. 2015. Vol. 10. № 1. DOI: 10.1145/2733381.
Загрузки
Опубликован
Выпуск
Раздел
Лицензия
Izvestiya of Altai State University is a golden publisher, as we allow self-archiving, but most importantly we are fully transparent about your rights.
Authors may present and discuss their findings ahead of publication: at biological or scientific conferences, on preprint servers, in public databases, and in blogs, wikis, tweets, and other informal communication channels.
Izvestiya of Altai State University allows authors to deposit manuscripts (currently under review or those for intended submission to Izvestiya of Altai State University) in non-commercial, pre-print servers such as ArXiv.
Authors who publish with this journal agree to the following terms:
- Authors retain copyright and grant the journal right of first publication with the work simultaneously licensed under a Creative Commons Attribution License (CC BY 4.0) that allows others to share the work with an acknowledgement of the work's authorship and initial publication in this journal.
- Authors are able to enter into separate, additional contractual arrangements for the non-exclusive distribution of the journal's published version of the work (e.g., post it to an institutional repository or publish it in a book), with an acknowledgement of its initial publication in this journal.
- Authors are permitted and encouraged to post their work online (e.g., in institutional repositories or on their website) prior to and during the submission process, as it can lead to productive exchanges, as well as earlier and greater citation of published work (See The Effect of Open Access).