システムの動作原理
三層アーキテクチャ設計
- リアルタイムファイル監視層
- ファイルシステムの変更(作成/名前変更/削除)をリアルタイムで認識
- ファイル名インデックス(秒単位の応答)
- ファイルコンテンツインデックス(低ピーク時間帯の早朝に統一処理)
- インデックス更新の非同期バッチ処理(読み取り、書き込み、削除、独立したコルーチン)
- 最終的な整合性を確保するための毎日の完全監査(午前0時)
- インテリジェントインデックス構築層
- スノーフレークアルゴリズムでドキュメントIDを生成(40万+/秒の生成能力)
- 70以上のファイルタイプに対応する自動フォーマット認識
- マルチモーダル検索層
- 四次元の共同検索:
全文検索(名前/コンテンツ/タグ/要約)
ファイル名の曖昧一致
ファイル名の正確一致
セマンティック検索(現在は画像のみ対応)
コアの利点
🚀高速なインデックス構築
- テストデータ:総容量65.5GB、ファイル数200,000
- 設備構成:4コアN100 CPU、500GB HDD
インデックス |
従来のソリューション(同様のシステムの場合) |
このシステム |
増加倍率 |
ファイル名インデックス時間 |
18分 |
1.4秒 |
771倍 |
ファイルコンテンツインデックス時間(Office&PDFドキュメント選択) |
1時間23分 |
2分21秒 |
35.2倍 |
インデックスメモリ使用量 |
176MB |
26MB |
6.77倍 |
インデックスディスク占有率 |
156MB |
28MB |
5.6倍 |
バックエンドサービス数 |
7 |
2 |
3.5倍 |
💡インテリジェントリソーススケジューリング
- オンデマンド読み込みメカニズム:実際の使用ニーズに応じてモデルファイルをダウンロードし、軽量で迅速な起動
- 動的現在制限戦略:
単一処理制限:100,000ドキュメント/タイプ
最大処理時間:5分/タイプ
- 書き込みバリア保護:高頻度の書き込みによるCPUの急上昇を防止
適用シナリオ
- ナレッジベース管理:ドキュメントの迅速な検索
- マルチメディアアーカイブ:コンテンツを通じて画像/ビデオを検索
- コンプライアンス監査:ドキュメント変更履歴の正確な追跡
- チームコラボレーション:クロスフォーマットコンテンツの関連検索
全文検索対応フォーマットと処理方法の表
カテゴリ |
フォーマット拡張子 |
処理方法 |
メモ |
テキストカテゴリ |
.txt .md .log .htm .html .mht .mhtml .xml |
1. 直接読み取り 2. テキスト密度に基づくHTML抽出 |
コードファイルはデフォルトでインデックスされません |
PDFドキュメント |
.pdf |
1. Pdfium直接解析 2. コピーはTesseract OCRを使用 |
制限:≤ 200ページ、OCR結果≤ 800KB |
電子書籍 |
.epub .fb2 .djvu |
Doconverterを使用してtxtに変換 |
.djvuはスキャンドキュメントを処理 |
Wordドキュメント |
.doc .docm .docx .docxf .dot .dotm .dotx .fodt .odt .ott .oxps .rtf .stw .sxw .wps .wpt .xps |
Doconverterを使用してdocxに変換し解析 |
WPS全範囲フォーマットをサポート |
表形式ドキュメント |
.csv .et .ett .fods .ods .ots .sxc .xls .xlsb .xlsm .xlsx .xlt .xltm .xltx |
Doconverterを使用してCSVに変換して読み取る |
|
PPTドキュメント |
.dps .dpt .fodp .odp .otp .pot .potm .potx .pps .ppsm .ppsx .ppt .pptm .pptx .sxi |
Doconverterを使用してpptxに変換して解析 |
|
IWorkドキュメント |
.pages .numbers .key |
Iwork2text変換(OCR認識をサポート) |
|
画像★ |
.bmp .raw .jpg .jpeg .jpe .jfif .png .gif .tif .tiff .webp .mat .pbm .pgm .ppm .pfm .pnm .fits .fit .fts .exr .hdr .v .vips |
MiniCPM-o-2.6モデルを使用したOCR認識 |
制限:≤ 20MB/シート |
ビデオ★ |
.mp4 .wmv .mkv .avi .mov .webm .flv .mpeg .mpg .3gp .asf .rm .rmv .rmvb .m4v .swf |
Whisper Large v3を使用した字幕抽出 |
|
音声★ |
.mp3 .aac .wav .flac .ogg .m4a .aiff .wma .ape |
Whisper-Large-v3を使用した音声転写 |
|
CADドキュメント |
.dwg .dxf |
現在、コンテンツ解析はサポートされていません |
メタデータのみインデックス |
圧縮ファイル |
.zip .rar .7z .sz .xz .gz .tar .bz2 .br .zz .zst .lz4 |
現在、コンテンツ解凍と解析はサポートされていません |
圧縮パケットメタデータのみインデックス |
注:★でマークされたフォーマットは、ZimaOS AIモジュールを有効にする必要があり、完全な処理能力はハードウェア構成に依存します。システムはサポートリストを継続的に更新しており、最新のフォーマットサポートについては公式ドキュメントを参照してください。
🌐 AI強化検索
- 画像処理:MiniCPM-o-2.6 OCR+ラベル認識
- 音声およびビデオ処理:Whisper-large-v3字幕生成
- セマンティック分析:MiniLM-L6セマンティックベクトル化
- 参照ドキュメント:ZimaOSのAI検索を有効にする