本システムは Apache Tika を使用してドキュメントを解析しており、数百種類のファイル形式をサポートしています。
application/pdf - PDF ドキュメントapplication/msword - Word ドキュメント (.doc)application/vnd.openxmlformats-officedocument.wordprocessingml.document - Word ドキュメント (.docx)application/vnd.ms-excel - Excel スプレッドシート (.xls)application/vnd.openxmlformats-officedocument.spreadsheetml.sheet - Excel スプレッドシート (.xlsx)application/vnd.ms-powerpoint - PowerPoint プレゼンテーション (.ppt)application/vnd.openxmlformats-officedocument.presentationml.presentation - PowerPoint プレゼンテーション (.pptx)application/vnd.oasis.opendocument.text - テキストドキュメント (.odt)application/vnd.oasis.opendocument.spreadsheet - スプレッドシート (.ods)application/vnd.oasis.opendocument.presentation - プレゼンテーション (.odp)application/vnd.oasis.opendocument.graphics - グラフィックドキュメント (.odg)text/plain - プレーンテキスト (.txt)text/markdown - Markdown (.md, .markdown)text/html - HTML ドキュメント (.html, .htm)text/csv - CSV 表形式 (.csv)text/xml - XML ドキュメント (.xml)application/xml - XML ドキュメントapplication/json - JSON データ (.json)text/x-python - Python コード (.py)text/x-java - Java コード (.java)text/x-c - C コード (.c)text/x-c++ - C++ コード (.cpp, .cc, .cxx)text/javascript - JavaScript コード (.js)text/typescript - TypeScript コード (.ts)image/jpeg - JPEG 画像 (.jpg, .jpeg)image/png - PNG 画像 (.png)image/gif - GIF 画像 (.gif)image/webp - WebP 画像 (.webp)image/tiff - TIFF 画像 (.tiff, .tif)image/bmp - BMP 画像 (.bmp)image/svg+xml - SVG ベクター画像 (.svg)application/zip - ZIP 圧縮アーカイブ (.zip)application/x-tar - TAR アーカイブ (.tar)application/gzip - GZIP 圧縮 (.gz)application/x-7z-compressed - 7z 圧縮アーカイブ (.7z)application/rtf - RTF ドキュメント (.rtf)application/epub+zip - EPUB 電子書籍 (.epub)application/x-mobipocket-ebook - MOBI 電子書籍 (.mobi)明示的なリスト以外にも、システムは以下のパターンを自動的にサポートします:
text/ で始まるすべての MIME タイプapplication/vnd. で始まるすべてのタイプapplication/x- で始まるすべてのタイプこれは、特定の形式がリストになくても、Tika が解析可能であればシステムで処理できることを意味します。
.env の MAX_FILE_SIZE で設定可能)# ファイルアップロードの制限
MAX_FILE_SIZE=104857600 # 100MB
# チャンク設定(Embeddingモデルに合わせて調整)
MAX_CHUNK_SIZE=8191 # OpenAI embedding-3-large
MAX_OVERLAP_SIZE=200
フロントエンドの「システム設定」→「モデル管理」で Embedding モデルを設定する際:
エラー: 不支持的文件类型: application/xxx (サポートされていないファイル形式)
解決策:
エラー: 无法提取文本内容 (テキスト内容を抽出できません)
解決策:
docker-compose logs tika現象: テキストが文字化けする
解決策: