Наборы Данных¶
Этот документ предоставляет исчерпывающую информацию о наборах данных, используемых в платформе CulicidaeLab Server, включая образцы данных, обучающие наборы данных и методологии сбора данных.
Обзор¶
CulicidaeLab использует множественные наборы данных для поддержки идентификации видов комаров, картирования заболеваний и экологических исследований. Платформа объединяет курированные образцы данных с реальными наблюдениями для предоставления комплексных возможностей наблюдения за комарами.
Образцы Наборов Данных¶
Набор Данных Видов¶
Набор данных видов содержит исчерпывающую информацию о видах комаров по всему миру с многоязычной поддержкой и детальной таксономической информацией.
Структура Набора Данных: - Записи: 17 видов комаров из 4 родов - Языки: Локализация на английском и русском языках - Поля: 16 атрибутов на вид, включая таксономию, экологию и связи с заболеваниями
Ключевые Включенные Виды:
Род Aedes (8 видов)¶
- Aedes aegypti - Комар желтой лихорадки
- Aedes albopictus - Азиатский тигровый комар
- Aedes canadensis - Канадский комар
- Aedes dorsalis - Прибрежный комар каменных луж
- Aedes geniculatus - Комар дупел деревьев
- Aedes koreicus - Корейский кустарниковый комар
- Aedes triseriatus - Восточный комар дупел деревьев
- Aedes vexans - Внутренний комар паводковых вод
Род Anopheles (3 вида)¶
- Anopheles arabiensis - Арабский малярийный комар
- Anopheles freeborni - Западный малярийный комар
- Anopheles sinensis - Китайский малярийный комар
Род Culex (4 вида)¶
- Culex inatomii
- Culex pipiens - Обыкновенный домашний комар
- Culex quinquefasciatus - Южный домашний комар
- Culex tritaeniorhynchus - Комар японского энцефалита
Род Culiseta (2 вида)¶
- Culiseta annulata - Кольчатый комар
- Culiseta longiareolata - Полосатый комар
Атрибуты Данных:
{
"id": "идентификатор_вида",
"scientific_name": "Род вид",
"vector_status": "Высокий|Умеренный|Низкий",
"image_url": "путь/к/изображению/вида",
"common_name_en": "Английское обычное название",
"common_name_ru": "Русское обычное название",
"description_en": "Английское описание",
"description_ru": "Русское описание",
"key_characteristics_en": ["характеристика1", "характеристика2"],
"key_characteristics_ru": ["характеристика1", "характеристика2"],
"habitat_preferences_en": ["среда1", "среда2"],
"habitat_preferences_ru": ["среда1", "среда2"],
"geographic_regions": ["регион1", "регион2"],
"related_diseases": ["id_заболевания1", "id_заболевания2"]
}
Набор Данных Заболеваний¶
Набор данных заболеваний содержит информацию о заболеваниях, переносимых комарами, с исчерпывающими медицинскими и эпидемиологическими данными.
Структура Набора Данных: - Записи: 13 основных заболеваний, переносимых комарами - Языки: Английская и русская медицинская терминология - Охват: Глобальное распространение заболеваний и связи с переносчиками
Включенные Заболевания:
Вирусные Заболевания¶
- Лихорадка Денге - Передается Aedes aegypti, Aedes albopictus
- Вирус Зика - Передается Aedes aegypti, Aedes albopictus
- Чикунгунья - Передается Aedes aegypti, Aedes albopictus
- Желтая Лихорадка - Передается Aedes aegypti
- Вирус Западного Нила - Передается Culex pipiens, Culex quinquefasciatus
- Японский Энцефалит - Передается Culex tritaeniorhynchus
- Восточный Лошадиный Энцефалит - Передается Aedes canadensis
- Энцефалит Сент-Луиса - Передается Culex pipiens, Culex quinquefasciatus
- Энцефалит Ла-Кросс - Передается Aedes triseriatus
- Лихорадка Рифт-Валли - Передается множественными видами Culex и Aedes
Паразитарные Заболевания¶
- Малярия - Передается видами Anopheles
- Филяриоз - Передается Culex quinquefasciatus, Aedes aegypti
- Птичья Малярия - Передается видами Culex
Поля Медицинской Информации: - Симптомы и клиническая картина - Протоколы лечения и медикаменты - Стратегии профилактики - Эпидемиологические данные и распространенность - Географическое распространение - Связи с видами переносчиков
Набор Данных Наблюдений¶
Набор данных наблюдений содержит записи полевых наблюдений с геопространственной информацией и метаданными.
Формат Набора Данных: Коллекция Объектов GeoJSON Система Координат: WGS84 (EPSG:4326) Временное Покрытие: Настраиваемые диапазоны дат
Структура GeoJSON:
{
"type": "FeatureCollection",
"features": [
{
"type": "Feature",
"properties": {
"id": "уникальный_id_наблюдения",
"species_scientific_name": "Род вид",
"observed_at": "строка_ISO_datetime",
"count": "количество_экземпляров",
"observer_id": "идентификатор_наблюдателя",
"data_source": "информация_об_источнике",
"location_accuracy_m": "точность_в_метрах",
"notes": "заметки_наблюдения",
"image_filename": "связанный_файл_изображения",
"model_id": "идентификатор_ии_модели",
"confidence": "оценка_уверенности_предсказания",
"metadata": "дополнительные_json_метаданные"
},
"geometry": {
"type": "Point",
"coordinates": [долгота, широта]
}
}
]
}
Географические Наборы Данных¶
Набор Данных Регионов¶
- Административные Границы: Страна, штат/провинция и местные регионы
- Экологические Зоны: Биомы, климатические зоны и классификации среды обитания
- Многоязычные Названия: Английские и русские названия регионов
- Иерархическая Структура: Вложенные географические отношения
Набор Данных Источников Данных¶
- Исследовательские Институты: Университеты и исследовательские организации
- Государственные Агентства: Департаменты здравоохранения и экологические агентства
- Гражданская Наука: Платформы наблюдений, вносимых сообществом
- Литературные Источники: Опубликованные исследования и данные обследований
Обучающие Наборы Данных¶
Набор Данных Классификации Изображений¶
Обучение ИИ модели использует курированные наборы данных изображений из библиотеки culicidaelab:
Характеристики Набора Данных: - Покрытие Видов: 17+ видов комаров - Качество Изображений: Высокоразрешающая микроскопия и полевая фотография - Стандартизация: Согласованное освещение, фон и ориентация - Аугментация: Синтетические вариации для улучшенной устойчивости модели
Разделение Обучение/Валидация: - Обучающий Набор: 70% изображений для обучения модели - Валидационный Набор: 15% для настройки гиперпараметров - Тестовый Набор: 15% для финальной оценки производительности
Техники Аугментации Данных: - Преобразования поворота и отражения - Корректировки цветового пространства - Инъекция шума и эффекты размытия - Вариации масштаба и обрезки
Наборы Данных Производительности Модели¶
Эталонные Наборы Данных: - Тестирование Точности: Курированные тестовые наборы с экспертными аннотациями - Калибровка Уверенности: Наборы данных для валидации оценок уверенности - Кросс-Валидация: Множественные разделения наборов данных для надежной оценки - Тестирование в Реальном Мире: Полевые изображения для практической оценки производительности
Методология Сбора Данных¶
Протоколы Полевых Наблюдений¶
Стандартизированный Сбор¶
- GPS Координаты: Точная запись местоположения (точность ±5м)
- Временные Данные: Дата, время и условия окружающей среды
- Подсчеты Экземпляров: Количественные измерения численности
- Фотография: Стандартизированные протоколы съемки
- Метаданные: Информация о наблюдателе и методах сбора
Обеспечение Качества¶
- Экспертная Валидация: Таксономическая проверка специалистами
- Верификация Данных: Перекрестная проверка записей наблюдений
- Обнаружение Выбросов: Статистический анализ аномальных данных
- Проверки Полноты: Валидация обязательных полей
Курирование Набора Данных Изображений¶
Стандарты Сбора¶
- Требования к Разрешению: Минимальные размеры пикселей для анализа
- Качество Фокуса: Стандарты резкости и четкости
- Условия Освещения: Согласованные протоколы освещения
- Стандарты Фона: Нейтральные фоны для извлечения признаков
Процесс Аннотации¶
- Экспертная Разметка: Идентификация видов таксономистами
- Валидация Множественными Рецензентами: Независимый процесс верификации
- Оценка Уверенности: Уровни уверенности аннотации
- Морфологические Признаки: Детальные анатомические аннотации
Качество Данных и Валидация¶
Метрики Качества¶
Полнота¶
- Покрытие Полей: Процент заполненных обязательных полей
- Географическое Покрытие: Пространственное распределение наблюдений
- Временное Покрытие: Полнота временных рядов
- Представление Видов: Сбалансированное покрытие по таксонам
Точность¶
- Таксономическая Валидация: Экспертная проверка идентификации видов
- Точность Координат: Точность и валидация GPS
- Временная Точность: Протоколы верификации даты/времени
- Качество Изображений: Технические оценки качества
Согласованность¶
- Соглашения об Именовании: Стандартизированная таксономическая номенклатура
- Стандартизация Единиц: Согласованные единицы измерения
- Соответствие Формату: Валидация соответствия схеме
- Целостность Перекрестных Ссылок: Проверки согласованности отношений
Процедуры Валидации¶
Автоматизированная Валидация¶
- Валидация Схемы: Проверка соответствия схеме PyArrow
- Валидация Диапазона: Верификация приемлемых диапазонов значений
- Валидация Формата: Верификация типа данных и структуры
- Валидация Отношений: Проверки целостности внешних ключей
Ручной Обзор¶
- Экспертный Обзор: Валидация сложных записей специалистами
- Статистический Анализ: Обнаружение выбросов и анализ трендов
- Кросс-Валидация: Независимые процессы верификации
- Интеграция Обратной Связи: Исправления и обновления, сообщаемые пользователями
Использование Данных и Лицензирование¶
Руководящие Принципы Использования¶
Исследовательские Приложения¶
- Академические Исследования: Открытый доступ для образовательных учреждений
- Коммерческое Использование: Условия лицензирования для коммерческих приложений
- Требования к Атрибуции: Правильное цитирование и признание
- Права на Модификацию: Разрешения на улучшение данных
Конфиденциальность и Этика¶
- Персональные Данные: Защита личной информации наблюдателей
- Конфиденциальность Местоположения: Ограничения точности координат для чувствительных областей
- Управление Согласием: Согласие наблюдателя на обмен данными
- Этические Руководящие Принципы: Соответствие стандартам исследовательской этики
Протоколы Обмена Данными¶
Доступ к API¶
- Ограничение Скорости: Дросселирование запросов для справедливого использования
- Аутентификация: Безопасные механизмы контроля доступа
- Опции Формата: Множественные форматы экспорта (JSON, CSV, GeoJSON)
- Возможности Фильтрации: Доступ к подмножествам данных на основе запросов
Массовые Загрузки¶
- Пакеты Наборов Данных: Полные загрузки наборов данных
- Контроль Версий: Релизы наборов данных с временными метками
- Журналы Изменений: Документация обновлений наборов данных
- Верификация Целостности: Контрольные суммы и инструменты валидации
Будущие Улучшения Наборов Данных¶
Планируемые Расширения¶
Покрытие Видов¶
- Дополнительные Роды: Расширение на другие роды комаров
- Региональные Варианты: Подвиды и географические варианты
- Стадии Жизни: Данные стадий яйца, личинки, куколки и взрослой особи
- Морфологические Варианты: Половой диморфизм и сезонные вариации
Географическое Расширение¶
- Глобальное Покрытие: Данные о распространении видов по всему миру
- Интеграция Климатических Данных: Корреляция параметров окружающей среды
- Моделирование Среды Обитания: Наборы данных экологического моделирования ниш
- Временная Динамика: Данные сезонных и годовых вариаций
Технологическая Интеграция¶
- Молекулярные Данные: Генетические последовательности и филогенетическая информация
- Акустические Данные: Частоты взмахов крыльев и звуковые сигнатуры
- Поведенческие Данные: Паттерны полета и поведение питания
- Датчики Окружающей Среды: Данные мониторинга окружающей среды в реальном времени
Улучшения Инфраструктуры Данных¶
Оптимизация Производительности¶
- Стратегии Индексирования: Продвинутое индексирование базы данных для более быстрых запросов
- Системы Кэширования: Интеллектуальное кэширование данных для улучшенного времени отклика
- Техники Сжатия: Эффективное хранение больших наборов данных
- Распределенное Хранение: Масштабируемая архитектура хранения
Возможности Интеграции¶
- Внешние API: Интеграция с глобальными базами данных биоразнообразия
- Потоки в Реальном Времени: Потоковая передача живых данных из сетей мониторинга
- Совместные Платформы: Интеграция с платформами гражданской науки
- Исследовательские Сети: Подключение к международным исследовательским консорциумам