天壤小白v1.1.0版本上线,超实用的大模型文档集功能优化Tips,快来一探究竟!

发布时间 2023-08-10 18:44:55作者: 上海天壤

Hi!小白的用户伙伴们,你们好!

上月,「天壤小白」大模型产品三件套首次亮相2023WAIC。其中,应用开发平台最具特点的文档集功能,集成大模型强大的语义理解和推理技术,不仅有效破解大模型“幻觉”,还助力天壤快速适配企业需求,发布20+企业级智能应用。

今天,天壤小白v1.1.0版本上线!除了「模型版本」的升级外,我们针对「文档集」功能做了更多增强优化,希望能够帮助大家更高效地管理和分析各类文档,提升大模型输出内容质量,从而快速和准确地获取和应用知识信息。

 

1、模型更新

我们针对不同成本的小白大模型均进行了迭代升级:1、支持更长的文本输入(3K);2、优化了训练数据质量,提示模型效果。

模型版本:xiaobai-001 、xiaobai-001-small 、xiaobai-001-tiny。

2、功能更新

(1)支持添加结构化文档

我们新增了「结构化文档」功能,并支持多种格式文件的自动解析,如excel,csv,jsonl等,满足更多类型的文档需求和功能应用开发,帮助你更好地提取、定位和汇总信息。

平台上传文档类型包含:xls, xlsx, csv, jsonl, pdf, html, htm, md, markdown, txt, doc, docx, jpg, jpeg, png, bmp, gif, tif, xls, xlsx, csv, jsonl。

(2)支持上传图片和自动OCR处理识别所有文字

 如果你想要提取和处理图片中的文字,或是解析一份包含图片的PDF报告,我们提供具有高准确率的OCR技术,能够自动识别大量图片中的文字。同时,支持多种语言的识别,包含中文、英文、日语等,帮您节省大量时间的同时,避免人工输入可能出现错误。

处理文档类型:txt、doc、xls、xlsx、pdf、jpg、png等常见文本、图片文件。

(3)支持从URL下载文档,获取文档更快捷

当你想要获取某网站的精彩信息,平台为你提供更加便捷、高效、安全的方式。无需安装任何插件,只要打开浏览器,输入网址信息,即可轻松地从URL获取文档,方便更好地工作和学习。

(4)支持设置字段类型以及选择是否加入语义索引

若你的文档包含多个字段类型,你可以根据需求选择一个或多个不同字段进行文本的分析和处理;相比此前默认分片储存的方式,基于字段的文档分类、字符分割将更清晰合理。同时选择加入语义搜索,使文档的提问和回答更完整。

3、应用配置更新

(1)选择结构化文档集时,支持设置召回字段

我们支持上传结构化文档,并提供更明确的文本分类。当你创建应用时,可将选择的字段内容作为上下文输入,也可以直接用作搜索内容。这样一来,系统就可以召回与之强匹配的原始片段内容,或基于大模型生成更准确的回答。

(2)自定义上下文提示词模版,根据应用需求去调整

如果你有其他应用需求,我们也支持你根据自己的需求进行提示词的优化和定义,自行调整提示词模版,使模型输出的文本更符合你的要求和预期。

示例教程 

接下来,我们将为您展示几个完整的操作示例:

1、如何创建一个结构化文档

2、如何基于文档创建应用

3、如何识别一个图片文件

4、如何通过URL下载文档

以上就是本次版本更新的全部内容啦。如有任何疑问,可从微信后台加入社群,我们将为您解答!

我们将不定期更新关于产品的教程和学习视频,帮助大家快速玩转天壤小白开放平台!