ZimaOS-Search如何工作

系统工作原理

索引	传统方案（类似系统）	本系统	增幅倍数
文件名索引时间	18分钟	1.4秒	771倍
文件内容索引时间（选择Office和PDF文档）	1小时23分钟	2分21秒	35.2倍
索引内存使用	176MB	26MB	6.77倍
索引磁盘占用	156MB	28MB	5.6倍
后端服务数量	7	2	3.5倍

类别	格式扩展名	处理方法	备注
文本类	.txt .md .log .htm .html .mht .mhtml .xml	1. 直接读取 2. 基于文本密度的HTML提取	代码文件默认不被索引
PDF文档	.pdf	1. Pdfium直接解析 2. 影像使用Tesseract OCR	限制：≤200页，OCR结果≤800KB
电子书	.epub .fb2 .djvu	Doconverter转换为txt格式	.djvu处理扫描文档
Word文档	.doc .docm .docx .docxf .dot .dotm .dotx .fodt .odt .ott .oxps .rtf .stw .sxw .wps .wpt .xps	转换为docx后解析	支持WPS全系列格式
表格文档	.csv .et .ett .fods .ods .ots .sxc .xls .xlsb .xlsm .xlsx .xlt .xltm .xltx	转换为CSV后读取
PPT文档	.dps .dpt .fodp .odp .otp .pot .potm .potx .pps .ppsm .ppsx .ppt .pptm .pptx .sxi	分析转换为pptx
IWork文档	.pages .numbers .key	Iwork2text转换（支持OCR识别）
图片★	.bmp .raw .jpg .jpeg .jpe .jfif .png .gif .tif .tiff .webp .mat .pbm .pgm .ppm .pfm .pnm .fits .fit .fts .exr .hdr .v .vips	使用MiniCPM-o-2.6模型进行OCR识别	限制：每张≤20MB
视频★	.mp4 .wmv .mkv .avi .mov .webm .flv .mpeg .mpg .3gp .asf .rm .rmv .rmvb .m4v .swf	使用Faster Whisper Large v3进行字幕提取
音频★	.mp3 .aac .wav .flac .ogg .m4a .aiff .wma .ape	使用Faster Whisper-Large-v3进行语音转录
CAD文档	.dwg .dxf	当前不支持内容解析	仅索引元数据
压缩文件	.zip .rar .7z .sz .xz .gz .tar .bz2 .br .zz .zst .lz4	当前不支持内容解压和解析	仅索引压缩包元数据

注：带★的格式需要启用ZimaOS AI模块，完整的处理能力依赖于硬件配置。系统会不断更新支持的格式列表，请参见官方文档获取最新的格式支持信息。