Каталогизатор Семейного Архива
Media Gallery
### Описание Продукта: 'Архивариус' **1. Проблема (The Problem)** У многих пользователей есть огромные, хаотично организованные архивы файлов, накопленные за десятилетия. Эти архивы представляют собой смешение ценных личных данных (фото, документы, проекты) и цифрового 'мусора' (скачанные файлы, временные данные, системные файлы, дубликаты). **Ключевые проблемы:** * **Потеря ценности:** Важные файлы теряются в хаосе. * **Неэффективное использование пространства:** Дубликаты и ненужные файлы занимают гигабайты и терабайты места. * **Сложность поиска:** Найти что-то конкретное практически невозможно без ручного перебора. * **Риск случайного удаления:** Легко случайно удалить что-то важное, пытаясь 'навести порядок'. **2. Решение (The Solution)** **'Архивариус'** — это интеллектуальная система для автоматической каталогизации, анализа и организации файловых архивов. Программа сканирует указанные директории и создает централизованную базу данных (каталог), обогащая ее метаданными. Используя комбинацию эвристических правил и (в будущем) моделей машинного обучения, 'Архивариус' классифицирует каждый файл и папку, присваивая им оценку 'ценности'. Это позволяет пользователю отделить 'зерна от плевел' — личные данные от цифрового мусора — и принимать взвешенные решения об организации, хранении и удалении файлов. **3. Ключевые Функции (Key Functions)** 1. **Индексация и Каталогизация:** * Рекурсивное сканирование директорий. * Сбор базовой информации о файлах (путь, размер, даты). * Вычисление хэш-сумм (SHA256) для идентификации контента. * Создание и ведение базы данных SQLite. 2. **Поиск Дубликатов:** * Надежное обнаружение файлов с идентичным содержимым, независимо от имени и расположения. 3. **Автоматическая Классификация (на основе балльной системы):** * **Классификация файлов:** Каждому файлу присваивается категория ценности (high_value, low_value и т.д.) и итоговый балл, основанный на десятках правил (путь, имя, расширение, размер, родительские папки). * **Классификация директорий:** Каждая директория оценивается на основе своего имени, пути и агрегированной ценности вложенных в нее файлов и поддиректорий. 4. **Извлечение Метаданных и Обогащение:** * Автоматическое извлечение EXIF-данных из фотографий (модель камеры, дата съемки, GPS-координаты). * **Преобразование EXIF GPS-координат в человекочитаемые локации (страна, регион, город) с использованием LLM, которые затем используются для тегирования и поиска.** * Создание тегов на основе пути, имени файла и других метаданных. 5. **Анализ и Отчетность:** * Предоставление отчетов и статистик по составу архива. * Утилиты для просмотра случайных выборок файлов из разных категорий для быстрой оценки качества классификации. 6. **Изолированное Окружение:** * Полная поддержка Docker, что позволяет запускать систему на любой платформе без сложной настройки и конфликтов зависимостей.