Parse Introduction 介绍

了解 Cortex Parse 如何将 URL、文件和存储对象转成标准化 Markdown 与元数据。

Cortex Parse 是 Cortex 的摄入入口。它接收公开 URL、Storage 对象和文件类 locator，将每个来源路由到合适的解析引擎，并返回可被 Storage、Knowledge、Evaluation、Synthesis 复用的标准化 Markdown 与元数据。

Parse 不绑定单一解析器。调用方可以使用 engine_id: "auto" 交给 Cortex 自动路由，也可以显式指定某个引擎：

引擎	适合场景	说明
`crawl4ai`	网页、文档站、动态 HTML	Crawl4AI 是面向 LLM 的开源爬虫与网页解析工具，适合在线 Web 内容。
`markitdown`	Office、PDF、图片、HTML、CSV/JSON/XML、ZIP	MarkItDown 是 Microsoft 的文件转 Markdown 工具，适合 LLM 数据管线。
`docling`	重型文档 AI、版面敏感 PDF	Docling 专注文档转换，可输出结构化结果和 Markdown。
`llama_parse`	复杂 PDF 的云端文档解析	LlamaParse 是 LlamaIndex 面向复杂文档和 RAG 的解析器。
`jina_reader`	快速 URL 转 Markdown	Jina Reader 提供简单的 reader 服务，把 URL 转为 LLM 友好的文本。

运行模式

Parse 同时提供同步与异步接口：

模式	接口	何时使用
同步	`POST /v1/parse/sync`	小批量 URL、冒烟测试、快速预览。
异步	`POST /v1/parse/jobs`	大批量、PDF、Docling、LlamaParse、Webhook、生产 worker 链路。

每个异步请求都会创建 Cortex Job。你可以用通用 Jobs API 查询状态，再通过 GET /v1/parse/jobs/{jobId}/result 读取结果。

成功的 parse result 通常包含：

当输入仍是“原始形态”时就应该使用 Parse：URL、PDF、CSV、Office 文件，或尚未标准化的 S3 兼容存储对象。