客服
公众号
反馈
护眼
顶部
表格主体标注:
表格外框标注为完全包含表格内容的最紧致的四个角点;
表格外框类型有常规有线表,无线表,仅外框表及其它情况。
有线表:
1.表格线完整的表格确定为有线表;
2.表格中大多数表格线都存在的样本也归为有线表;
3.仅外框2根线缺失的表格为有线表;
示例如下:
无线表:
1.框选区域有明确表格语义环境,且绝大多数线缺失的样本归为无线表;
2.多存在于财报及论文样本中。
仅外框表:
1.表格只有外框线,四根外框线无缺失,内部没有其它表格线时为仅外框表。
其它情况:
无法明确的情况请将表格外框类型设置为其它。主要是样本中存在与缺失的表格线均较多的场景。
1.标注外框应完全包含表格区域,并且紧贴表格范围。
2.对于邻接候选表区域内容不应将多表标为一个表,也不应将一个表标为多个表。应根据上下文内容如表头信息来决定是一个表还是多个表。
1.将多个表标记为一个表。
如下示每个区域有自己独立的表头,应区分为多个表格。
原标注:
纠正结果:
原标注:
纠正结果:
2.将一个表错误地切分成多个表。
如下图示相关区域内容为对应同一表头的信息,应该处理为一个表。
原标注:
纠正结果:
3.将非表格区域标记为表格。绘制的图形图表,论文中的公式定理等区域为非表格
如下图示为错误地将图片标记为表格。
4.行列间隔线为双线时仍为一个表,标注线时标记为两根实线/虚线。
如下图因双线错误地将一个表标记成两个表。
原图:
原标注:
修正标注:
5.标注表格外框应包含且仅包含表格正文区域内容。
如下图错误地将头部标题信息纳入了表格区域。
原图:
原标注:
修正标注:
下图错误地将头部及尾部信息划入了表格区:
原图:
原标注:
修正标注: