ZimaOS-Searchの動作について

システムの動作原理

三層アーキテクチャ設計

  1. リアルタイムファイル監視層
  • ファイルシステムの変更(作成/名前変更/削除)をリアルタイムで認識
  • ファイル名インデックス(秒単位の応答)
  • ファイルコンテンツインデックス(低ピーク時間帯の早朝に統一処理)
  • インデックス更新の非同期バッチ処理(読み取り、書き込み、削除、独立したコルーチン)
  • 最終的な整合性を確保するための毎日の完全監査(午前0時)
  1. インテリジェントインデックス構築層
  • スノーフレークアルゴリズムでドキュメントIDを生成(40万+/秒の生成能力)
  • 70以上のファイルタイプに対応する自動フォーマット認識
  1. マルチモーダル検索層
  • 四次元の共同検索:
    全文検索(名前/コンテンツ/タグ/要約)
    ファイル名の曖昧一致
    ファイル名の正確一致
    セマンティック検索(現在は画像のみ対応)

コアの利点

🚀高速なインデックス構築

  • テストデータ:総容量65.5GB、ファイル数200,000
  • 設備構成:4コアN100 CPU、500GB HDD
インデックス 従来のソリューション(同様のシステムの場合) このシステム 増加倍率
ファイル名インデックス時間 18分 1.4秒 771倍
ファイルコンテンツインデックス時間(Office&PDFドキュメント選択) 1時間23分 2分21秒 35.2倍
インデックスメモリ使用量 176MB 26MB 6.77倍
インデックスディスク占有率 156MB 28MB 5.6倍
バックエンドサービス数 7 2 3.5倍

💡インテリジェントリソーススケジューリング

  • オンデマンド読み込みメカニズム:実際の使用ニーズに応じてモデルファイルをダウンロードし、軽量で迅速な起動
  • 動的現在制限戦略
    単一処理制限:100,000ドキュメント/タイプ
    最大処理時間:5分/タイプ
  • 書き込みバリア保護:高頻度の書き込みによるCPUの急上昇を防止

適用シナリオ

  • ナレッジベース管理:ドキュメントの迅速な検索
  • マルチメディアアーカイブ:コンテンツを通じて画像/ビデオを検索
  • コンプライアンス監査:ドキュメント変更履歴の正確な追跡
  • チームコラボレーション:クロスフォーマットコンテンツの関連検索
    全文検索対応フォーマットと処理方法の表
カテゴリ フォーマット拡張子 処理方法 メモ
テキストカテゴリ .txt .md .log .htm .html .mht .mhtml .xml 1. 直接読み取り 2. テキスト密度に基づくHTML抽出 コードファイルはデフォルトでインデックスされません
PDFドキュメント .pdf 1. Pdfium直接解析 2. コピーはTesseract OCRを使用 制限:≤ 200ページ、OCR結果≤ 800KB
電子書籍 .epub .fb2 .djvu Doconverterを使用してtxtに変換 .djvuはスキャンドキュメントを処理
Wordドキュメント .doc .docm .docx .docxf .dot .dotm .dotx .fodt .odt .ott .oxps .rtf .stw .sxw .wps .wpt .xps Doconverterを使用してdocxに変換し解析 WPS全範囲フォーマットをサポート
表形式ドキュメント .csv .et .ett .fods .ods .ots .sxc .xls .xlsb .xlsm .xlsx .xlt .xltm .xltx Doconverterを使用してCSVに変換して読み取る
PPTドキュメント .dps .dpt .fodp .odp .otp .pot .potm .potx .pps .ppsm .ppsx .ppt .pptm .pptx .sxi Doconverterを使用してpptxに変換して解析
IWorkドキュメント .pages .numbers .key Iwork2text変換(OCR認識をサポート)
画像 .bmp .raw .jpg .jpeg .jpe .jfif .png .gif .tif .tiff .webp .mat .pbm .pgm .ppm .pfm .pnm .fits .fit .fts .exr .hdr .v .vips MiniCPM-o-2.6モデルを使用したOCR認識 制限:≤ 20MB/シート
ビデオ .mp4 .wmv .mkv .avi .mov .webm .flv .mpeg .mpg .3gp .asf .rm .rmv .rmvb .m4v .swf Whisper Large v3を使用した字幕抽出
音声 .mp3 .aac .wav .flac .ogg .m4a .aiff .wma .ape Whisper-Large-v3を使用した音声転写
CADドキュメント .dwg .dxf 現在、コンテンツ解析はサポートされていません メタデータのみインデックス
圧縮ファイル .zip .rar .7z .sz .xz .gz .tar .bz2 .br .zz .zst .lz4 現在、コンテンツ解凍と解析はサポートされていません 圧縮パケットメタデータのみインデックス

注:★でマークされたフォーマットは、ZimaOS AIモジュールを有効にする必要があり、完全な処理能力はハードウェア構成に依存します。システムはサポートリストを継続的に更新しており、最新のフォーマットサポートについては公式ドキュメントを参照してください。

🌐 AI強化検索

  • 画像処理:MiniCPM-o-2.6 OCR+ラベル認識
  • 音声およびビデオ処理:Whisper-large-v3字幕生成
  • セマンティック分析:MiniLM-L6セマンティックベクトル化
  • 参照ドキュメント:ZimaOSのAI検索を有効にする