πFlow V1.8 火爆来袭!PDF、DOCX、TIFF 等轻松转化,大模型训练从此“飙车”前行! - OSCHINA - 中文开源技术交流社区

【直播预告】大模型会取代程序员吗?”

大数据流水线系统 πFlow V1.8 版本正式发布,本次更新包含以下内容:

  • 新增特性

    • 新增对非结构化数据的解析能力。
  • 已有功能优化

    • Server 端 H2 数据库;
    • 自定义 Python 算子;
    • 模板功能;
    • 流水线。

一、πFlow 新增对非结构化数据的解析能力

πFlow 新增非结构化解析组件以支持用户从原始非结构化文档中提取结构化内容。这些组件将文档分解为 Title、NarrativeText 和 ListItem 等元素,使用户能够决定要为其特定应用程序保留哪些内容。例如,如果要训练摘要模型,则可能只对 NarrativeText 感兴趣。使用该功能需将 Server 端配置文件中的 unstructured.parse 属性设置为 “true”。

下表展示了 πFlow 当前支持的非结构化解析组件。

DocxParser

DocxParser 是用来解析.docx 的组件,参数说明如下:

组件样例配置如下:

HtmlParser

HtmlParser 是用来解析.html 或.htm 的组件,参数说明如下:

组件样例配置如下:

ImageParser

ImageParser 是用来解析图片的组件,支持解析.png/.jpg/.jpeg/.tiff/.bmp/.heic,参数说明如下:

组件样例配置如下:

PdfParser

PdfParser 是用来解析.pdf 的组件,其中 strategy 参数用来控制解析 PDF 的策略,可用的策略有:“auto”、“hi_res”、“ocr_only” 和 “fast”。

  • “auto” 将根据文档特征和功能属性选择解析策略。如果 PDF 中含有可提取的文本,“auto” 将选择 “fast”,否则选择 “ocr_only”。“auto” 是默认策略。
  • “hi_res” 策略将使用 detectron2 识别文档的布局。“hi_res” 的优点是它使用文档布局来获得关于文档元素的附加信息。如果您的用例对文档元素的正确分类高度敏感,我们建议使用此策略。此外,请注意该策略会耗费较长时间。
  • “ocr_only” 策略通过 Tesseract 提取文档。目前,“hi_res” 难以为具有多列的文档排序元素。如果您的文档有多个列,但没有可提取的文本,我们建议使用 “ocr_only” 策略。如果 Tesseract 不可用并且文档具有可提取的文本,“ocr_only” 会回落到 “fast”。
  • “fast” 策略使用 pdfminer 提取文本。如果 PDF 文本不可提取,“fast” 会选择 "ocr_only"。我们建议在 PDF 具有可提取文本的大多数情况下使用 “fast” 策略。

其他参数说明如下:

组件样例配置如下:

PptxParser

PptxParser 是用来解析.pptx 的组件,参数说明如下:

组件样例配置如下:

二、πFlow 已有功能优化

本次发版 πFlow 共有 4 个方面的优化,具体包括:

  • Server 端 H2 数据库优化

支持自定义 h2 数据库的名称。在 server 的 config.properties 中添加 "h2.name",即可生效。

  • 自定义 Python 组件优化

在自动构建镜像的功能上,摒弃了 docker-java 的工具类,采用原生 java API 实现,提高成功率。但目前仍有需改进的地方,比如构建镜像耗时较长(在线构建过程中不可避免),后续还会通过增加对上传镜像等功能的支持来改进这一问题。

  • 模版功能优化

修复了加载模板时自定义算子的参数顺序和保存时不一致的问题;修复了部分算子加载为模板失败的问题。

  • 流水线优化

修复了执行过程中某组件失败流水线状态不同步更新问题。

三、相关链接

我们希望通过 πFlow 技术人员和更多大数据领域的有志之士,一起将 πFlow 开源社区打造成国内一流的大数据处理开源社区,欢迎你的加入!

GitHub 地址:https://github.com/cas-bigdatalab/piflow

Gitee 地址:https://gitee.com/opensci/piflo


原网址: 访问
创建于: 2024-04-24 15:26:46
目录: default
标签: 无

请先后发表评论
  • 最新评论
  • 总共0条评论