Cómo funciona ZimaOS-Search

Principio de funcionamiento del sistema

Diseño de arquitectura en tres capas

Capa de monitoreo de archivos en tiempo real

Percepción en tiempo real de los cambios en el sistema de archivos (crear/renombrar/eliminar)
Índice de nombres de archivos (respuesta de segundo nivel)
Índice de contenido de archivos (procesamiento unificado durante las horas de menor actividad por la madrugada)
Procesamiento asincrónico por lotes de actualizaciones de índice (lectura, escritura, eliminación, corutinas independientes)
Auditoría completa diaria a medianoche para garantizar la consistencia final

Capa de construcción de índices inteligentes

El algoritmo Snowflake genera el ID del documento (capacidad de generación de 400,000+ por segundo)
Reconocimiento automático de formatos que admite más de 70 tipos de archivos

Capa de búsqueda multimodal

Búsqueda conjunta en cuatro dimensiones:
Búsqueda de texto completo (nombre/contenido/etiqueta/resumen)
Coincidencia difusa de nombres de archivos
Coincidencia exacta de nombres de archivos
Búsqueda semántica (actualmente solo admite imágenes)

Ventajas clave

🚀Construcción rápida de índices

Datos de prueba: Tamaño total 65.5GB, número de archivos 200000
Configuración del equipo: CPU N100 de 4 núcleos, HDD de 500GB

Índice	Solución tradicional (para un sistema similar)	Este sistema	Multiplicador de aumento
Tiempo de índice de nombre de archivo	18 minutos	1.4S	771 veces
Tiempo de indexación de contenido de archivos (seleccionar documentos de Office y PDF)	1h 23min	2min21S	35.2 veces
Uso de memoria del índice	176MB	26MB	6.77 veces
Ocupación de disco del índice	156MB	28MB	5.6 veces
Número de servicios backend	7	2	3.5 veces

💡Programación inteligente de recursos

Mecanismo de carga bajo demanda: Los archivos del modelo se descargan según las necesidades reales de uso, con un inicio rápido y ligero
Estrategia dinámica de limitación de corriente:
Límite de procesamiento único: 100000 documentos/tipo
Tiempo máximo de procesamiento: 5 minutos/tipo
Protección contra barreras de escritura: Evita que las escrituras de alta frecuencia causen picos en la CPU

Escenarios aplicables

Gestión de bases de conocimiento: Localizar documentos rápidamente
Archivo multimedia: Buscar imágenes/videos a través de contenido
Auditoría de cumplimiento: Rastrear con precisión el historial de cambios de documentos
Colaboración en equipo: Recuperación de contenido cruzado entre formatos
Tabla de soporte de búsqueda de texto completo y método de procesamiento

Categoría	Extensión de formato	Método de manejo	Notas
Categoría de texto	.txt .md .log .htm .html .mht .mhtml .xml	1. Lectura directa 2. Extracción basada en densidad de texto HTML	Los archivos de código no se indexan por defecto
Documento PDF	.pdf	1. Análisis directo de Pdfium 2. El fotocopiado usa OCR Tesseract	Límite: ≤ 200 páginas, resultado de OCR ≤ 800KB
e-book	.epub .fb2 .djvu	Conversión Doconverter a txt	.djvu procesa documentos escaneados
Documento Word	.doc .docm .docx .docxf .dot .dotm .dotx .fodt .odt .ott .oxps .rtf .stw .sxw .wps .wpt .xps	Convertir Doconverter a docx y analizarlo	Soporta el formato completo de WPS
Documento de tabla	.csv .et .ett .fods .ods .ots .sxc .xls .xlsb .xlsm .xlsx .xlt .xltm .xltx	Convertir Doconverter a CSV y leerlo
Documento PPT	.dps .dpt .fodp .odp .otp .pot .potm .potx .pps .ppsm .ppsx .ppt .pptm .pptx .sxi	Análisis de conversión Doconverter a pptx
Documento IWork	.pages .numbers .key	Conversión Iwork2text (soporta reconocimiento OCR)
Imagen★	.bmp .raw .jpg .jpeg .jpe .jfif .png .gif .tif .tiff .webp .mat .pbm .pgm .ppm .pfm .pnm .fits .fit .fts .exr .hdr .v .vips	Reconocimiento OCR usando el modelo MiniCPM-o-2.6	Restricciones: ≤ 20MB por hoja
Video★	.mp4 .wmv .mkv .avi .mov .webm .flv .mpeg .mpg .3gp .asf .rm .rmv .rmvb .m4v .swf	Extracción de subtítulos de Whisper Large v3 más rápida
Audio★	.mp3 .aac .wav .flac .ogg .m4a .aiff .wma .ape	Transcripción de voz Whisper-Large-v3 más rápida
Documento CAD	.dwg .dxf	El análisis de contenido no es compatible actualmente	Solo se indexan los metadatos del paquete comprimido
Archivo comprimido	.zip .rar .7z .sz .xz .gz .tar .bz2 .br .zz .zst .lz4	El análisis de contenido no es compatible actualmente	Solo se indexan los metadatos del paquete comprimido

Nota: El formato marcado con ★ requiere que el módulo de IA de ZimaOS esté habilitado, y la capacidad de procesamiento completa depende de la configuración de hardware. El sistema actualiza continuamente la lista de soporte, consulte la documentación oficial para obtener la lista más reciente de formatos soportados.

🌐 Búsqueda mejorada con IA

Procesamiento de imágenes: OCR MiniCPM-o-2.6 + reconocimiento de etiquetas
Procesamiento de audio y video: Generación de subtítulos Whisper-large-v3
Análisis semántico: Vectorización semántica MiniLM-L6
Documento de referencia: Habilitar búsqueda con IA en ZimaOS