Перейти к содержанию

Наборы Данных

Этот документ предоставляет исчерпывающую информацию о наборах данных, используемых в платформе CulicidaeLab Server, включая образцы данных, обучающие наборы данных и методологии сбора данных.

Обзор

CulicidaeLab использует множественные наборы данных для поддержки идентификации видов комаров, картирования заболеваний и экологических исследований. Платформа объединяет курированные образцы данных с реальными наблюдениями для предоставления комплексных возможностей наблюдения за комарами.

Образцы Наборов Данных

Набор Данных Видов

Набор данных видов содержит исчерпывающую информацию о видах комаров по всему миру с многоязычной поддержкой и детальной таксономической информацией.

Структура Набора Данных: - Записи: 17 видов комаров из 4 родов - Языки: Локализация на английском и русском языках - Поля: 16 атрибутов на вид, включая таксономию, экологию и связи с заболеваниями

Ключевые Включенные Виды:

Род Aedes (8 видов)

  • Aedes aegypti - Комар желтой лихорадки
  • Aedes albopictus - Азиатский тигровый комар
  • Aedes canadensis - Канадский комар
  • Aedes dorsalis - Прибрежный комар каменных луж
  • Aedes geniculatus - Комар дупел деревьев
  • Aedes koreicus - Корейский кустарниковый комар
  • Aedes triseriatus - Восточный комар дупел деревьев
  • Aedes vexans - Внутренний комар паводковых вод

Род Anopheles (3 вида)

  • Anopheles arabiensis - Арабский малярийный комар
  • Anopheles freeborni - Западный малярийный комар
  • Anopheles sinensis - Китайский малярийный комар

Род Culex (4 вида)

  • Culex inatomii
  • Culex pipiens - Обыкновенный домашний комар
  • Culex quinquefasciatus - Южный домашний комар
  • Culex tritaeniorhynchus - Комар японского энцефалита

Род Culiseta (2 вида)

  • Culiseta annulata - Кольчатый комар
  • Culiseta longiareolata - Полосатый комар

Атрибуты Данных:

{
  "id": "идентификатор_вида",
  "scientific_name": "Род вид",
  "vector_status": "Высокий|Умеренный|Низкий",
  "image_url": "путь/к/изображению/вида",
  "common_name_en": "Английское обычное название",
  "common_name_ru": "Русское обычное название",
  "description_en": "Английское описание",
  "description_ru": "Русское описание",
  "key_characteristics_en": ["характеристика1", "характеристика2"],
  "key_characteristics_ru": ["характеристика1", "характеристика2"],
  "habitat_preferences_en": ["среда1", "среда2"],
  "habitat_preferences_ru": ["среда1", "среда2"],
  "geographic_regions": ["регион1", "регион2"],
  "related_diseases": ["id_заболевания1", "id_заболевания2"]
}

Набор Данных Заболеваний

Набор данных заболеваний содержит информацию о заболеваниях, переносимых комарами, с исчерпывающими медицинскими и эпидемиологическими данными.

Структура Набора Данных: - Записи: 13 основных заболеваний, переносимых комарами - Языки: Английская и русская медицинская терминология - Охват: Глобальное распространение заболеваний и связи с переносчиками

Включенные Заболевания:

Вирусные Заболевания

  • Лихорадка Денге - Передается Aedes aegypti, Aedes albopictus
  • Вирус Зика - Передается Aedes aegypti, Aedes albopictus
  • Чикунгунья - Передается Aedes aegypti, Aedes albopictus
  • Желтая Лихорадка - Передается Aedes aegypti
  • Вирус Западного Нила - Передается Culex pipiens, Culex quinquefasciatus
  • Японский Энцефалит - Передается Culex tritaeniorhynchus
  • Восточный Лошадиный Энцефалит - Передается Aedes canadensis
  • Энцефалит Сент-Луиса - Передается Culex pipiens, Culex quinquefasciatus
  • Энцефалит Ла-Кросс - Передается Aedes triseriatus
  • Лихорадка Рифт-Валли - Передается множественными видами Culex и Aedes

Паразитарные Заболевания

  • Малярия - Передается видами Anopheles
  • Филяриоз - Передается Culex quinquefasciatus, Aedes aegypti
  • Птичья Малярия - Передается видами Culex

Поля Медицинской Информации: - Симптомы и клиническая картина - Протоколы лечения и медикаменты - Стратегии профилактики - Эпидемиологические данные и распространенность - Географическое распространение - Связи с видами переносчиков

Набор Данных Наблюдений

Набор данных наблюдений содержит записи полевых наблюдений с геопространственной информацией и метаданными.

Формат Набора Данных: Коллекция Объектов GeoJSON Система Координат: WGS84 (EPSG:4326) Временное Покрытие: Настраиваемые диапазоны дат

Структура GeoJSON:

{
  "type": "FeatureCollection",
  "features": [
    {
      "type": "Feature",
      "properties": {
        "id": "уникальный_id_наблюдения",
        "species_scientific_name": "Род вид",
        "observed_at": "строка_ISO_datetime",
        "count": "количество_экземпляров",
        "observer_id": "идентификатор_наблюдателя",
        "data_source": "информация_об_источнике",
        "location_accuracy_m": "точность_в_метрах",
        "notes": "заметки_наблюдения",
        "image_filename": "связанный_файл_изображения",
        "model_id": "идентификатор_ии_модели",
        "confidence": "оценка_уверенности_предсказания",
        "metadata": "дополнительные_json_метаданные"
      },
      "geometry": {
        "type": "Point",
        "coordinates": [долгота, широта]
      }
    }
  ]
}

Географические Наборы Данных

Набор Данных Регионов

  • Административные Границы: Страна, штат/провинция и местные регионы
  • Экологические Зоны: Биомы, климатические зоны и классификации среды обитания
  • Многоязычные Названия: Английские и русские названия регионов
  • Иерархическая Структура: Вложенные географические отношения

Набор Данных Источников Данных

  • Исследовательские Институты: Университеты и исследовательские организации
  • Государственные Агентства: Департаменты здравоохранения и экологические агентства
  • Гражданская Наука: Платформы наблюдений, вносимых сообществом
  • Литературные Источники: Опубликованные исследования и данные обследований

Обучающие Наборы Данных

Набор Данных Классификации Изображений

Обучение ИИ модели использует курированные наборы данных изображений из библиотеки culicidaelab:

Характеристики Набора Данных: - Покрытие Видов: 17+ видов комаров - Качество Изображений: Высокоразрешающая микроскопия и полевая фотография - Стандартизация: Согласованное освещение, фон и ориентация - Аугментация: Синтетические вариации для улучшенной устойчивости модели

Разделение Обучение/Валидация: - Обучающий Набор: 70% изображений для обучения модели - Валидационный Набор: 15% для настройки гиперпараметров - Тестовый Набор: 15% для финальной оценки производительности

Техники Аугментации Данных: - Преобразования поворота и отражения - Корректировки цветового пространства - Инъекция шума и эффекты размытия - Вариации масштаба и обрезки

Наборы Данных Производительности Модели

Эталонные Наборы Данных: - Тестирование Точности: Курированные тестовые наборы с экспертными аннотациями - Калибровка Уверенности: Наборы данных для валидации оценок уверенности - Кросс-Валидация: Множественные разделения наборов данных для надежной оценки - Тестирование в Реальном Мире: Полевые изображения для практической оценки производительности

Методология Сбора Данных

Протоколы Полевых Наблюдений

Стандартизированный Сбор

  • GPS Координаты: Точная запись местоположения (точность ±5м)
  • Временные Данные: Дата, время и условия окружающей среды
  • Подсчеты Экземпляров: Количественные измерения численности
  • Фотография: Стандартизированные протоколы съемки
  • Метаданные: Информация о наблюдателе и методах сбора

Обеспечение Качества

  • Экспертная Валидация: Таксономическая проверка специалистами
  • Верификация Данных: Перекрестная проверка записей наблюдений
  • Обнаружение Выбросов: Статистический анализ аномальных данных
  • Проверки Полноты: Валидация обязательных полей

Курирование Набора Данных Изображений

Стандарты Сбора

  • Требования к Разрешению: Минимальные размеры пикселей для анализа
  • Качество Фокуса: Стандарты резкости и четкости
  • Условия Освещения: Согласованные протоколы освещения
  • Стандарты Фона: Нейтральные фоны для извлечения признаков

Процесс Аннотации

  • Экспертная Разметка: Идентификация видов таксономистами
  • Валидация Множественными Рецензентами: Независимый процесс верификации
  • Оценка Уверенности: Уровни уверенности аннотации
  • Морфологические Признаки: Детальные анатомические аннотации

Качество Данных и Валидация

Метрики Качества

Полнота

  • Покрытие Полей: Процент заполненных обязательных полей
  • Географическое Покрытие: Пространственное распределение наблюдений
  • Временное Покрытие: Полнота временных рядов
  • Представление Видов: Сбалансированное покрытие по таксонам

Точность

  • Таксономическая Валидация: Экспертная проверка идентификации видов
  • Точность Координат: Точность и валидация GPS
  • Временная Точность: Протоколы верификации даты/времени
  • Качество Изображений: Технические оценки качества

Согласованность

  • Соглашения об Именовании: Стандартизированная таксономическая номенклатура
  • Стандартизация Единиц: Согласованные единицы измерения
  • Соответствие Формату: Валидация соответствия схеме
  • Целостность Перекрестных Ссылок: Проверки согласованности отношений

Процедуры Валидации

Автоматизированная Валидация

  • Валидация Схемы: Проверка соответствия схеме PyArrow
  • Валидация Диапазона: Верификация приемлемых диапазонов значений
  • Валидация Формата: Верификация типа данных и структуры
  • Валидация Отношений: Проверки целостности внешних ключей

Ручной Обзор

  • Экспертный Обзор: Валидация сложных записей специалистами
  • Статистический Анализ: Обнаружение выбросов и анализ трендов
  • Кросс-Валидация: Независимые процессы верификации
  • Интеграция Обратной Связи: Исправления и обновления, сообщаемые пользователями

Использование Данных и Лицензирование

Руководящие Принципы Использования

Исследовательские Приложения

  • Академические Исследования: Открытый доступ для образовательных учреждений
  • Коммерческое Использование: Условия лицензирования для коммерческих приложений
  • Требования к Атрибуции: Правильное цитирование и признание
  • Права на Модификацию: Разрешения на улучшение данных

Конфиденциальность и Этика

  • Персональные Данные: Защита личной информации наблюдателей
  • Конфиденциальность Местоположения: Ограничения точности координат для чувствительных областей
  • Управление Согласием: Согласие наблюдателя на обмен данными
  • Этические Руководящие Принципы: Соответствие стандартам исследовательской этики

Протоколы Обмена Данными

Доступ к API

  • Ограничение Скорости: Дросселирование запросов для справедливого использования
  • Аутентификация: Безопасные механизмы контроля доступа
  • Опции Формата: Множественные форматы экспорта (JSON, CSV, GeoJSON)
  • Возможности Фильтрации: Доступ к подмножествам данных на основе запросов

Массовые Загрузки

  • Пакеты Наборов Данных: Полные загрузки наборов данных
  • Контроль Версий: Релизы наборов данных с временными метками
  • Журналы Изменений: Документация обновлений наборов данных
  • Верификация Целостности: Контрольные суммы и инструменты валидации

Будущие Улучшения Наборов Данных

Планируемые Расширения

Покрытие Видов

  • Дополнительные Роды: Расширение на другие роды комаров
  • Региональные Варианты: Подвиды и географические варианты
  • Стадии Жизни: Данные стадий яйца, личинки, куколки и взрослой особи
  • Морфологические Варианты: Половой диморфизм и сезонные вариации

Географическое Расширение

  • Глобальное Покрытие: Данные о распространении видов по всему миру
  • Интеграция Климатических Данных: Корреляция параметров окружающей среды
  • Моделирование Среды Обитания: Наборы данных экологического моделирования ниш
  • Временная Динамика: Данные сезонных и годовых вариаций

Технологическая Интеграция

  • Молекулярные Данные: Генетические последовательности и филогенетическая информация
  • Акустические Данные: Частоты взмахов крыльев и звуковые сигнатуры
  • Поведенческие Данные: Паттерны полета и поведение питания
  • Датчики Окружающей Среды: Данные мониторинга окружающей среды в реальном времени

Улучшения Инфраструктуры Данных

Оптимизация Производительности

  • Стратегии Индексирования: Продвинутое индексирование базы данных для более быстрых запросов
  • Системы Кэширования: Интеллектуальное кэширование данных для улучшенного времени отклика
  • Техники Сжатия: Эффективное хранение больших наборов данных
  • Распределенное Хранение: Масштабируемая архитектура хранения

Возможности Интеграции

  • Внешние API: Интеграция с глобальными базами данных биоразнообразия
  • Потоки в Реальном Времени: Потоковая передача живых данных из сетей мониторинга
  • Совместные Платформы: Интеграция с платформами гражданской науки
  • Исследовательские Сети: Подключение к международным исследовательским консорциумам