有关于Reducto注册
前言
Reducto 是面向开发者与企业的文档智能平台,可将 PDF、图片等非结构化文档转为结构化、适配 LLM/RAG 的数据,结合传统版面分析与 VLM 实现高准确度解析,定位 “将文档变成数据,构建不受束缚的 AI 工作流”,服务从初创到 Fortune 10 客户。其产品含三步解析流程、四大类 API 及 Studio 工作台,合规达 SOC 2 Type II、HIPAA,支持多形态部署;2025 年累计融资 1.08 亿美元,主攻法律、金融等行业,适合复杂文档解析与合规需求场景,轻量 OCR 场景则不适用,上手可通过 Studio 试跑与 API 测试。
产品介绍
市面上有很多的传统 AI 提取工具但是为什么还要选择 Reducto 呢?
传统 AI 提取工具(如基础 OCR、规则引擎)依赖单一视觉模型或固定模板,在处理复杂文档时存在显著瓶颈。例如,传统 OCR 在扫描件倾斜、表格跨页或手写体场景下准确率骤降,且无法理解图表语义。Reducto 则通过多模态流水线实现质的提升: - 版面分析 + VLM 复核:先用布局感知模型切分页面区域,再通过视觉 - 语言模型(VLM)进行多轮纠错。例如,其自研的 RolmOCR 模型基于 Qwen2.5-VL-7B 大模型,可识别不规则文本、图像嵌套文字,并通过训练旋转图像提升鲁棒性,在实际测试中修正了传统 OCR 的 “OCLM”→“DCLM” 等典型错误。 - 上下文关联理解:通过 VLM 建立标签 - 数值关联,例如在财报解析中自动识别 “净利润” 对应的图表数据点,并保留字段来源定位(Extraction Citations),解决传统工具 “碎片化抽取” 导致的语义断裂问题。
对于传统 AI 提取工具来说,传统 AI 提取工具输出多为纯文本或简单结构化数据,需人工二次处理才能接入 AI 模型。Reducto 则以LLM-ready 输出为设计核心: - 结构化 JSON 与嵌入优化:输出包含版面结构(如边界框)、语义标签(如 “表格标题”)及字段关联关系的 JSON,同时支持自动生成向量嵌入,可直接导入向量数据库构建 RAG 系统。例如,在法律文档处理中,其结构化输出能精准定位条款引用关系,提升检索效率。 - 智能分块与摘要生成:通过动态分块(chunking)算法将长文档打散为语义连贯的单元,并生成多模态摘要(如图表文字化),解决传统工具 “一刀切分块” 导致的上下文丢失问题。
注册步骤
步骤 1: 搜索Reducto官网
首先,确保自己具备魔法环境,然后访问https://studio.reducto.ai/。
步骤 2: 注册
点击页面按钮“Try for free”,跳转到注册页面;
跳转到Home界面后。点击“Create pipeline”创建通道;
步骤 3: 临时邮箱注册
访问https://mail.sunls.de/ 网址点击弹出的临时邮箱网址进行复制后粘贴到注册邮箱选项

输入自定义密码(数字加英文大小写组合)后点击注册按钮,注册成功后会跳转到验证页面;
之后返回到临时邮箱界面点击验证信息按钮进行验证(这里可能显示网页不存在或者报错,可以尝试Ctrl+F5强制刷新页面后可以验证成功)
到了这一步以后就可以直接返回到Reducto注册页面当中,会显示已经注册成功
步骤 4: 相关功能介绍
上传概述
上传端点允许用户可以直接将文件发送到 Reducto,而无需依赖 S3 等外部存储或公共 URL。上传完成后,您将收到一个唯一的reducto://URL ( file_id),可与 /parse、/split 或 /extract 端点一起使用。
解析
将 PDF 和扫描件解析为分块上下文,用于检索增强生成 (RAG),从而提高 LLM 的准确性和相关性 构建自定义 LLM 应用程序,例如聊天机器人、摘要器、内部副驾驶等。
提取概述
Extract 用于提取文档中需要隔离的特定数据,并以 JSON 格式返回。Extract 首先执行Parse,然后从 Parse 输出中提取特定数据
编辑概述
编辑用于通过应用指令填写表格(PDF)或插入/修改内容(DOCX)来修改文档。 编辑接收 PDF 或 DOCX 文件以及提示,然后自动检测文档的布局并智能地填充。
结语
通过以上步骤,您可以注册并体验免费给的1000积分,通常一篇10000字的论文在设置启用 AI 摘要和返回图形/表格图像的设置下消耗38——51左右的积分,基本上正常用户给的积分还是比较够用的。

