系统架构图

功能模块

  • 多模态模型:
    • 实现音频、视频、图片的解析功能;
  • 语言处理模型:关键词提取等。
  • 内容生成模型:生成摘要和总结。

技术架构图

业务数据流程图

代码工程结构图

Web 服务工程结构

关键技术点

全文总结文章内容长度超过模型处理上限

工程层:工程层面会按业务场景约束文件的大小,然后一次发送全部内容给到模型。

模型层:将文章分为多段进行处理,再将每次的结果合并成一个新的文章,再次进行处理,最终返回摘要总结。

功能模块设计

数据采集服务

主流视频、内容网站

计划每天各主流网站按 Top 10 抓取,预计每天数据量在200条左右。

  • 小红书、知乎、公众号
  • B站、快手、抖音(pc端)
  • 新浪、搜狐、网易、腾讯新闻
  • tt、youtobe
  • 科技文献(主要AI圈),待确定

文件上传

  • word/pdf/txt/ppt等文本内容
    • 仅文本层面处理
    • 文本、图片都识别

网盘

  • 百度网盘地址
  • 夸克网盘地址

对接网盘,需要用户自己的网盘密钥。

文件解析服务

视频、音频、图片解析

多模态模型提供能力支持。

图片、音频、视频,明超这边的多模态服务已计划支持,目前正在开发中,具体排期未定。

文档文件解析

需要对 pdf、word、txt、ppt 格式的文档进行文本解析。

存在的问题,对纯文本、排版规范的文件可以很好的识别,但是对存在图片或排版不规范的无法保证100%识别。

可行方案列表:

方案 特性 价格 链接
腾讯云 200元/千次
阿里云 1. 电子文档解析,支持 word、excel、html、epub、mobi、markdown、txt、ppt 格式2. 文档抽取,支持 pdf 文件 按量计费文档理解:500页/108元阶梯收费 https://help.aliyun.com/zh/document-mind/developer-reference/digitaldocstructure?spm=a2c4g.11186623.0.0.417258fc1UWIqzhttps://help.aliyun.com/zh/document-mind/product-overview/resource-plans?spm=a2c4g.11186623.0.0.1e571137ynMX1V
gugudata Pdf 解析 1499元/年 https://www.gugudata.com/api/details/pdf2format
LightPDF PDF, Word, Excel, PPT, EPUB, TXT, webpage (url), scanned files supported 159$/年/10000 credits https://lightpdf.com/chatdoc
FileParseUtil 本地实现word(doc、docx)、excel、pdf、ppt、csv、txt只能识别纯文本,没有图片解析能力 / https://github.com/Deep2018530/FileParseUtil
tesseract Orc 识别库有java客户端 tess4j,可以训练数据。

地址解析

根据文件链接地址,自动判断文件类型,调用对应的文件解析服务。

发现/灵感广场

该模块将提供抖/快/B/知/红/视频号Top榜单,以及热门KOC/KOL最新视频。同时海外站点提供tt/youtubo榜单(未来结合sora等让更多的中国的koc、kol出海)。

对通过数据采集服务采集过来的数据进行展示。

  • 内容分类展示最新数据
  • 内容搜索、分页?
  • 添加收藏、分享

AI 交互功能

Prompt 管理

针对业务场景,编写对应的 prompt,提升模型结果的准确性。
python为解释型语言,prompt可以直接在代码里写死,前期没有必要存储到数据库。

  • 总结思维导图
  • 总结文章
  • 提炼价值点
  • 文本翻译
  • 生成推荐问题
  • 根据图片内容写故事

流式输出

模型结果支持流式输出。

摘要与总结

调用模型进行全文总结生成,可以选取一段内容进行摘要生成,摘要位置可以进行管理,双向定位。

前端交互功能

前端功能界面需要包含几个区域,大致功能如下:

  • 功能按钮区域
    • 新会话
    • 上传文件
  • 文件列表区域
  • 文件预览区域
    • 可以显示pdf、txt、视频、音频
    • 有笔记或摘要的位置高亮区别显示
    • 显示文件中的高亮内容可以定位到问答区域的对应内容
  • 问答区域

针对文档,用户可以选择复制文本,然后在问答区域可以进行任意问题的提问。

互动问答

互动问答中,可以文本输入或上传文件进行多轮问答。

  • 输入校验
    • 输入内容校验
    • 内容长度校验
  • 文档文字选择
    • 解释
    • 总结
  • 文档内容截图框选(同chatpdf)
  • 回答内容快速复制
  • 问题总数限制
  • 异常处理
    • 异常提示文案、级别及形式
  • 数据存储
  • 历史数据加载

笔记

  • 笔记内容
    • 文本
    • 图片
    • 视频
  • 笔记位置管理,可双向定位
    • 记录笔记在文档中的位置
    • 记录笔记在音频中的位置
    • 记录笔记在视频中的位置

多模型结果

支持多个模型的结果展示。

基础功能

登录、注册

登录

支持微信扫码登录、平台帐号登录和手机验证码登录。

注册

  • 微信扫码登录时自动注册。
  • 用户自行注册。
  • 手机验证码登录时自动注册。

用户空间管理

  • 文件存储空间套餐
  • 文件管理
  • 笔记、摘要管理
  • 基本信息管理

分享

用户可将摘要、笔记等信息对外分享,需要一个单独的分享内容展示界面。

系统管理

组织机构管理

  • 对组织机构进行curd
  • 可以给机构添加用户
  • 同一用户可存在多个机构中

用户管理

  • 对用户进行curd
  • 可以设置用户的角色,支持多选
  • 可以设计用户的组织机构,支持多选

角色管理

  • 对角色信息进行curd
  • 可以给角色添加用户,同一用户可拥有多个角色
  • 可以给角色添加功能资源,支持多选

功能资源管理

  • 对功能资源进行curd

安全与风控服务

涉黄、涉政

用户提交文件校验

模型生成内容校验

防刷

数据存储

MySQL

静态资源库(COS)

使用腾讯 cos 服务存储用户上传和自动采集的文件。

缓存库

缓存用户信息等。

消息

数据库设计

资源申请

测试环境

应用:aiuc-web

应用:ai-aiuc-parse-com

MySQL

数据库名称: aiuc_web_DB

版本: 5.7

资源配置: 2G内存+40G硬盘

资源归属部门:

创建资源服务商: TC(腾讯云)

灾备: 跨可用区

所需hosts: aiuc-web-data-mysql-m01

Redis

资源名称: aiuc-web-cache-redis-m01

版本: 4.0

架构:分布式版(8分片)

资源配置: 1G内存

是否需要密码: 是

资源归属部门: AI事业部

创建资源服务商: TC(腾讯云)

灾备: 跨可用区

成本统计

项目 使用情况 成本 汇总
服务器
Redis
mysql
大模型
腾讯云存储
总计

技术调研

LangChain:大语言模型工具箱

参考资料:

https://zhuanlan.zhihu.com/p/619729737

源码:

https://github.com/kaixindelele/ChatPaper

https://github.com/shibing624/ChatPDF

业界案例

txyz

支持的功能

  • 非扫描件的 Pdf 文件内容解析
  • 内容总结
  • 交互提问

不支持的功能

  • 不支持纯图片或扫描成图片的pdf

Chatpdf

支持框选图表,使用gpt4解释

Chatdoc

Chatexcel

Biligpt