Чтение онлайн

на главную - закладки

Жанры

Искусственный интеллект. Машинное обучение
Шрифт:

```python

from sklearn.datasets import load_iris

# Загрузка данных Iris

iris = load_iris

# Просмотр информации о данных

print(iris.DESCR)

```

Этот код загружает данные Iris и выводит их описание, чтобы мы могли понять структуру набора данных и его признаки.

После того, как мы ознакомились с данными, мы можем приступить к кластеризации. Для этого давайте выберем метод кластеризации, например, метод k-средних.

```python

from sklearn.cluster import KMeans

#

Инициализация модели k-средних

kmeans = KMeans(n_clusters=3, random_state=42)

# Обучение модели на данных

kmeans.fit(iris.data)

# Получение меток кластеров для каждого объекта

labels = kmeans.labels_

```

Здесь мы инициализируем модель k-средних с 3 кластерами и обучаем её на данных Iris. Затем мы получаем метки кластеров для каждого объекта.

Наконец, мы можем визуализировать результаты кластеризации, чтобы лучше понять структуру данных.

```python

import matplotlib.pyplot as plt

# Визуализация кластеров

plt.scatter(iris.data[:, 0], iris.data[:, 1], c=labels, cmap='viridis')

plt.xlabel('Sepal length')

plt.ylabel('Sepal width')

plt.title('Clusters')

plt.show

```

Этот код создает график, на котором каждый объект данных представлен точкой, а цвет точек указывает на принадлежность к кластеру. Таким образом, мы можем визуально оценить результаты кластеризации.

Таким образом, мы можем выполнить кластеризацию набора данных Iris с помощью метода k-средних и визуализировать результаты, чтобы лучше понять структуру данных.

Пример 2

Давайте рассмотрим другую задачу кластеризации с использованием набора данных "Mall Customer Segmentation", который содержит информацию о клиентах торгового центра. Наша цель будет состоять в кластеризации клиентов на основе их характеристик для выделения различных сегментов клиентов.

Описание задачи:

Набор данных "Mall Customer Segmentation" содержит информацию о клиентах торгового центра, такую как пол, возраст, доход и оценка расходов. Наша задача – разбить клиентов на кластеры на основе этих характеристик.

Описание хода решения:

1. Загрузка данных: Мы загрузим набор данных и посмотрим на его структуру и характеристики.

2. Предварительная обработка данных: Если необходимо, мы выполним предварительную обработку данных, такую как масштабирование функций или заполнение пропущенных значений.

3. Кластеризация: Мы применим выбранный метод кластеризации (например, k-средних или иерархическую кластеризацию) к данным о клиентах.

4. Визуализация результатов: Мы визуализируем результаты кластеризации, чтобы лучше понять структуру различных сегментов клиентов.

Давайте приступим к кодированию.

Для начала давайте загрузим набор данных "Mall Customer Segmentation" и изучим его структуру:

```python

import pandas as pd

#

Загрузка данных

data = pd.read_csv('mall_customers.csv')

# Вывод первых нескольких строк данных для ознакомления

print(data.head)

```

После загрузки данных мы можем выполнить предварительную обработку, если это необходимо. В данном случае данные уже предобработаны и готовы к кластеризации.

Теперь давайте приступим к кластеризации. Для этого воспользуемся методом кластеризации k-средних:

```python

from sklearn.cluster import KMeans

# Инициализация модели k-средних

kmeans = KMeans(n_clusters=5, random_state=42)

# Обучение модели на данных

kmeans.fit(data)

# Получение меток кластеров для каждого клиента

labels = kmeans.labels_

```

Теперь у нас есть метки кластеров для каждого клиента. Мы можем визуализировать результаты кластеризации, чтобы лучше понять структуру различных сегментов клиентов:

```python

import matplotlib.pyplot as plt

# Визуализация кластеров

plt.scatter(data['Age'], data['Annual Income (k$)'], c=labels, cmap='viridis')

plt.xlabel('Age')

plt.ylabel('Annual Income (k$)')

plt.title('Clusters of Mall Customers')

plt.show

```

Этот код создает график, на котором каждый клиент представлен точкой, а цвет точек указывает на принадлежность к кластеру. Таким образом, мы можем визуально оценить результаты кластеризации и выделить различные сегменты клиентов в торговом центре.

Иерархическая кластеризация

Это метод, который строит иерархию кластеров, представляющую собой древовидную структуру, называемую дендрограммой. Принцип работы этого метода заключается в постепенном объединении ближайших кластеров до тех пор, пока все объекты не окажутся в единственном кластере.

На первом шаге каждый объект представляет собой отдельный кластер. Затем на каждом последующем шаге два ближайших кластера объединяются в один. Этот процесс повторяется до тех пор, пока все объекты не соберутся в одном кластере.

Иерархическая кластеризация имеет ряд преимуществ. В отличие от метода k-средних, она не требует знания количества кластеров заранее, что делает ее более удобной в использовании. Кроме того, возможность визуализации дендрограммы позволяет анализировать иерархию кластеров и принимать более обоснованные решения.

Однако у этого метода есть и недостатки. Иерархическая кластеризация может быть неэффективной на больших наборах данных из-за сложности вычислений, особенно при использовании полной матрицы расстояний между объектами. Кроме того, этот метод может быть неустойчивым к выбросам, что может привести к нежелательным результатам.

Поделиться:
Популярные книги

Путь Шедара

Кораблев Родион
4. Другая сторона
Фантастика:
боевая фантастика
6.83
рейтинг книги
Путь Шедара

Кодекс Охотника. Книга XXI

Винокуров Юрий
21. Кодекс Охотника
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Кодекс Охотника. Книга XXI

Драконий подарок

Суббота Светлана
1. Королевская академия Драко
Любовные романы:
любовно-фантастические романы
7.30
рейтинг книги
Драконий подарок

Неудержимый. Книга XVIII

Боярский Андрей
18. Неудержимый
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Неудержимый. Книга XVIII

Сумеречный стрелок

Карелин Сергей Витальевич
1. Сумеречный стрелок
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Сумеречный стрелок

Уязвимость

Рам Янка
Любовные романы:
современные любовные романы
7.44
рейтинг книги
Уязвимость

Путь (2 книга - 6 книга)

Игнатов Михаил Павлович
Путь
Фантастика:
фэнтези
6.40
рейтинг книги
Путь (2 книга - 6 книга)

Я – Орк. Том 5

Лисицин Евгений
5. Я — Орк
Фантастика:
попаданцы
аниме
5.00
рейтинг книги
Я – Орк. Том 5

Совок

Агарев Вадим
1. Совок
Фантастика:
фэнтези
детективная фантастика
попаданцы
8.13
рейтинг книги
Совок

Авиатор: назад в СССР

Дорин Михаил
1. Авиатор
Фантастика:
попаданцы
альтернативная история
5.25
рейтинг книги
Авиатор: назад в СССР

На границе империй. Том 9. Часть 2

INDIGO
15. Фортуна дама переменчивая
Фантастика:
космическая фантастика
попаданцы
5.00
рейтинг книги
На границе империй. Том 9. Часть 2

Доктора вызывали? или Трудовые будни попаданки

Марей Соня
Фантастика:
юмористическая фантастика
попаданцы
5.00
рейтинг книги
Доктора вызывали? или Трудовые будни попаданки

Совершенный: пробуждение

Vector
1. Совершенный
Фантастика:
боевая фантастика
рпг
5.00
рейтинг книги
Совершенный: пробуждение

Энфис 4

Кронос Александр
4. Эрра
Фантастика:
городское фэнтези
рпг
аниме
5.00
рейтинг книги
Энфис 4