AI 内容理解平台技术方案
系统架构图
功能模块
- 多模态模型:
- 实现音频、视频、图片的解析功能;
- 语言处理模型:关键词提取等。
- 内容生成模型:生成摘要和总结。
技术架构图
业务数据流程图
代码工程结构图
Web 服务工程结构
关键技术点
全文总结文章内容长度超过模型处理上限
工程层:工程层面会按业务场景约束文件的大小,然后一次发送全部内容给到模型。
模型层:将文章分为多段进行处理,再将每次的结果合并成一个新的文章,再次进行处理,最终返回摘要总结。
功能模块设计
数据采集服务
主流视频、内容网站
计划每天各主流网站按 Top 10 抓取,预计每天数据量在200条左右。
- 小红书、知乎、公众号
- B站、快手、抖音(pc端)
- 新浪、搜狐、网易、腾讯新闻
- tt、youtobe
- 科技文献(主要AI圈),待确定
文件上传
- word/pdf/txt/ppt等文本内容
- 仅文本层面处理
- 文本、图片都识别
网盘
- 百度网盘地址
- 夸克网盘地址
对接网盘,需要用户自己的网盘密钥。
文件解析服务
视频、音频、图片解析
多模态模型提供能力支持。
图片、音频、视频,明超这边的多模态服务已计划支持,目前正在开发中,具体排期未定。
文档文件解析
需要对 pdf、word、txt、ppt 格式的文档进行文本解析。
存在的问题,对纯文本、排版规范的文件可以很好的识别,但是对存在图片或排版不规范的无法保证100%识别。
可行方案列表:
方案 | 特性 | 价格 | 链接 |
---|---|---|---|
腾讯云 | 200元/千次 | ||
阿里云 | 1. 电子文档解析,支持 word、excel、html、epub、mobi、markdown、txt、ppt 格式2. 文档抽取,支持 pdf 文件 | 按量计费文档理解:500页/108元阶梯收费 | https://help.aliyun.com/zh/document-mind/developer-reference/digitaldocstructure?spm=a2c4g.11186623.0.0.417258fc1UWIqzhttps://help.aliyun.com/zh/document-mind/product-overview/resource-plans?spm=a2c4g.11186623.0.0.1e571137ynMX1V |
gugudata | Pdf 解析 | 1499元/年 | https://www.gugudata.com/api/details/pdf2format |
LightPDF | PDF, Word, Excel, PPT, EPUB, TXT, webpage (url), scanned files supported | 159$/年/10000 credits | https://lightpdf.com/chatdoc |
FileParseUtil | 本地实现word(doc、docx)、excel、pdf、ppt、csv、txt只能识别纯文本,没有图片解析能力 | / | https://github.com/Deep2018530/FileParseUtil |
tesseract | Orc 识别库有java客户端 tess4j,可以训练数据。 |
地址解析
根据文件链接地址,自动判断文件类型,调用对应的文件解析服务。
发现/灵感广场
该模块将提供抖/快/B/知/红/视频号Top榜单,以及热门KOC/KOL最新视频。同时海外站点提供tt/youtubo榜单(未来结合sora等让更多的中国的koc、kol出海)。
对通过数据采集服务采集过来的数据进行展示。
- 内容分类展示最新数据
- 内容搜索、分页?
- 添加收藏、分享
AI 交互功能
Prompt 管理
针对业务场景,编写对应的 prompt,提升模型结果的准确性。
python为解释型语言,prompt可以直接在代码里写死,前期没有必要存储到数据库。
- 总结思维导图
- 总结文章
- 提炼价值点
- 文本翻译
- 生成推荐问题
- 根据图片内容写故事
流式输出
模型结果支持流式输出。
摘要与总结
调用模型进行全文总结生成,可以选取一段内容进行摘要生成,摘要位置可以进行管理,双向定位。
前端交互功能
前端功能界面需要包含几个区域,大致功能如下:
- 功能按钮区域
- 新会话
- 上传文件
- 文件列表区域
- 文件预览区域
- 可以显示pdf、txt、视频、音频
- 有笔记或摘要的位置高亮区别显示
- 显示文件中的高亮内容可以定位到问答区域的对应内容
- 问答区域
针对文档,用户可以选择复制文本,然后在问答区域可以进行任意问题的提问。
互动问答
互动问答中,可以文本输入或上传文件进行多轮问答。
- 输入校验
- 输入内容校验
- 内容长度校验
- 文档文字选择
- 解释
- 总结
- 文档内容截图框选(同chatpdf)
- 回答内容快速复制
- 问题总数限制
- 异常处理
- 异常提示文案、级别及形式
- 数据存储
- 历史数据加载
笔记
- 笔记内容
- 文本
- 图片
- 视频
- 笔记位置管理,可双向定位
- 记录笔记在文档中的位置
- 记录笔记在音频中的位置
- 记录笔记在视频中的位置
多模型结果
支持多个模型的结果展示。
基础功能
登录、注册
登录
支持微信扫码登录、平台帐号登录和手机验证码登录。
注册
- 微信扫码登录时自动注册。
- 用户自行注册。
- 手机验证码登录时自动注册。
用户空间管理
- 文件存储空间套餐
- 文件管理
- 笔记、摘要管理
- 基本信息管理
分享
用户可将摘要、笔记等信息对外分享,需要一个单独的分享内容展示界面。
系统管理
组织机构管理
- 对组织机构进行curd
- 可以给机构添加用户
- 同一用户可存在多个机构中
用户管理
- 对用户进行curd
- 可以设置用户的角色,支持多选
- 可以设计用户的组织机构,支持多选
角色管理
- 对角色信息进行curd
- 可以给角色添加用户,同一用户可拥有多个角色
- 可以给角色添加功能资源,支持多选
功能资源管理
- 对功能资源进行curd
安全与风控服务
涉黄、涉政
用户提交文件校验
模型生成内容校验
防刷
数据存储
MySQL
静态资源库(COS)
使用腾讯 cos 服务存储用户上传和自动采集的文件。
缓存库
缓存用户信息等。
消息
数据库设计
资源申请
测试环境
应用:aiuc-web
应用:ai-aiuc-parse-com
MySQL
数据库名称: aiuc_web_DB
版本: 5.7
资源配置: 2G内存+40G硬盘
资源归属部门:
创建资源服务商: TC(腾讯云)
灾备: 跨可用区
所需hosts: aiuc-web-data-mysql-m01
Redis
资源名称: aiuc-web-cache-redis-m01
版本: 4.0
架构:分布式版(8分片)
资源配置: 1G内存
是否需要密码: 是
资源归属部门: AI事业部
创建资源服务商: TC(腾讯云)
灾备: 跨可用区
成本统计
项目 | 使用情况 | 成本 | 汇总 |
---|---|---|---|
服务器 | |||
Redis | |||
mysql | |||
大模型 | |||
腾讯云存储 | |||
总计 |
技术调研
LangChain:大语言模型工具箱
参考资料:
https://zhuanlan.zhihu.com/p/619729737
源码:
https://github.com/kaixindelele/ChatPaper
https://github.com/shibing624/ChatPDF
业界案例
txyz
支持的功能
- 非扫描件的 Pdf 文件内容解析
- 内容总结
- 交互提问
不支持的功能
- 不支持纯图片或扫描成图片的pdf
Chatpdf
支持框选图表,使用gpt4解释