系统架构图

功能模块

多模态模型：
- 实现音频、视频、图片的解析功能；
语言处理模型：关键词提取等。
内容生成模型：生成摘要和总结。

技术架构图

业务数据流程图

代码工程结构图

Web 服务工程结构

关键技术点

全文总结文章内容长度超过模型处理上限

工程层：工程层面会按业务场景约束文件的大小，然后一次发送全部内容给到模型。

模型层：将文章分为多段进行处理，再将每次的结果合并成一个新的文章，再次进行处理，最终返回摘要总结。

功能模块设计

数据采集服务

主流视频、内容网站

计划每天各主流网站按 Top 10 抓取，预计每天数据量在200条左右。

小红书、知乎、公众号
B站、快手、抖音(pc端)
新浪、搜狐、网易、腾讯新闻
tt、youtobe
科技文献（主要AI圈），待确定

文件上传

word/pdf/txt/ppt等文本内容
- 仅文本层面处理
- 文本、图片都识别

网盘

百度网盘地址
夸克网盘地址

对接网盘，需要用户自己的网盘密钥。

文件解析服务

视频、音频、图片解析

多模态模型提供能力支持。

图片、音频、视频，明超这边的多模态服务已计划支持，目前正在开发中，具体排期未定。

文档文件解析

需要对 pdf、word、txt、ppt 格式的文档进行文本解析。

存在的问题，对纯文本、排版规范的文件可以很好的识别，但是对存在图片或排版不规范的无法保证100%识别。

可行方案列表：

方案	特性	价格	链接
腾讯云		200元/千次
阿里云	1. 电子文档解析，支持 word、excel、html、epub、mobi、markdown、txt、ppt 格式2. 文档抽取，支持 pdf 文件	按量计费文档理解：500页/108元阶梯收费	https://help.aliyun.com/zh/document-mind/developer-reference/digitaldocstructure?spm=a2c4g.11186623.0.0.417258fc1UWIqzhttps://help.aliyun.com/zh/document-mind/product-overview/resource-plans?spm=a2c4g.11186623.0.0.1e571137ynMX1V
gugudata	Pdf 解析	1499元/年	https://www.gugudata.com/api/details/pdf2format
LightPDF	PDF, Word, Excel, PPT, EPUB, TXT, webpage (url), scanned files supported	159$/年/10000 credits	https://lightpdf.com/chatdoc
FileParseUtil	本地实现word(doc、docx)、excel、pdf、ppt、csv、txt只能识别纯文本，没有图片解析能力	/	https://github.com/Deep2018530/FileParseUtil
tesseract	Orc 识别库有java客户端 tess4j，可以训练数据。

地址解析

根据文件链接地址，自动判断文件类型，调用对应的文件解析服务。

发现/灵感广场

该模块将提供抖/快/B/知/红/视频号Top榜单，以及热门KOC/KOL最新视频。同时海外站点提供tt/youtubo榜单（未来结合sora等让更多的中国的koc、kol出海）。

对通过数据采集服务采集过来的数据进行展示。

内容分类展示最新数据
内容搜索、分页？
添加收藏、分享

AI 交互功能

Prompt 管理

针对业务场景，编写对应的 prompt，提升模型结果的准确性。
python为解释型语言，prompt可以直接在代码里写死，前期没有必要存储到数据库。

总结思维导图
总结文章
提炼价值点
文本翻译
生成推荐问题
根据图片内容写故事

流式输出

模型结果支持流式输出。

摘要与总结

调用模型进行全文总结生成，可以选取一段内容进行摘要生成，摘要位置可以进行管理，双向定位。

前端交互功能

前端功能界面需要包含几个区域，大致功能如下：

功能按钮区域
- 新会话
- 上传文件
文件列表区域
文件预览区域
- 可以显示pdf、txt、视频、音频
- 有笔记或摘要的位置高亮区别显示
- 显示文件中的高亮内容可以定位到问答区域的对应内容
问答区域

针对文档，用户可以选择复制文本，然后在问答区域可以进行任意问题的提问。

互动问答

互动问答中，可以文本输入或上传文件进行多轮问答。

输入校验
- 输入内容校验
- 内容长度校验
文档文字选择
- 解释
- 总结
文档内容截图框选（同chatpdf）
回答内容快速复制
问题总数限制
异常处理
- 异常提示文案、级别及形式
数据存储
历史数据加载

笔记

笔记内容
- 文本
- 图片
- 视频
笔记位置管理，可双向定位
- 记录笔记在文档中的位置
- 记录笔记在音频中的位置
- 记录笔记在视频中的位置

多模型结果

支持多个模型的结果展示。

基础功能

登录、注册

注册

微信扫码登录时自动注册。
用户自行注册。
手机验证码登录时自动注册。

用户空间管理

文件存储空间套餐
文件管理
笔记、摘要管理
基本信息管理

用户可将摘要、笔记等信息对外分享，需要一个单独的分享内容展示界面。

系统管理

组织机构管理

对组织机构进行curd
可以给机构添加用户
同一用户可存在多个机构中

用户管理

对用户进行curd
可以设置用户的角色，支持多选
可以设计用户的组织机构，支持多选

角色管理

对角色信息进行curd
可以给角色添加用户，同一用户可拥有多个角色
可以给角色添加功能资源，支持多选

功能资源管理

对功能资源进行curd

安全与风控服务

涉黄、涉政

用户提交文件校验

模型生成内容校验

防刷

数据存储

MySQL

静态资源库（COS）

使用腾讯 cos 服务存储用户上传和自动采集的文件。

缓存库

缓存用户信息等。

消息

数据库设计

资源申请

测试环境

应用：aiuc-web

应用：ai-aiuc-parse-com

MySQL

数据库名称: aiuc_web_DB

版本: 5.7

资源配置: 2G内存+40G硬盘

资源归属部门:

创建资源服务商: TC(腾讯云)

灾备: 跨可用区

所需hosts: aiuc-web-data-mysql-m01

Redis

资源名称: aiuc-web-cache-redis-m01

版本: 4.0

架构:分布式版(8分片)

资源配置: 1G内存

是否需要密码: 是

资源归属部门: AI事业部

创建资源服务商: TC(腾讯云)

灾备: 跨可用区

成本统计

项目	使用情况	成本	汇总
服务器
Redis
mysql
大模型
腾讯云存储
总计

技术调研

LangChain：大语言模型工具箱

参考资料：

https://zhuanlan.zhihu.com/p/619729737

源码：

https://github.com/kaixindelele/ChatPaper

https://github.com/shibing624/ChatPDF

业界案例

txyz

支持的功能

非扫描件的 Pdf 文件内容解析
内容总结
交互提问

不支持的功能

不支持纯图片或扫描成图片的pdf

Chatpdf

支持框选图表，使用gpt4解释

系统架构图

功能模块

技术架构图

业务数据流程图

代码工程结构图

Web 服务工程结构

关键技术点

全文总结文章内容长度超过模型处理上限

功能模块设计

数据采集服务

主流视频、内容网站

文件上传

网盘

文件解析服务

视频、音频、图片解析

文档文件解析

地址解析

发现/灵感广场

AI 交互功能

Prompt 管理

流式输出

摘要与总结

前端交互功能

互动问答

笔记

多模型结果

基础功能

登录、注册

登录

注册

用户空间管理

分享

系统管理

组织机构管理

用户管理

角色管理

功能资源管理

安全与风控服务

用户提交文件校验

模型生成内容校验

防刷

数据存储

MySQL

静态资源库（COS）

缓存库

消息

数据库设计

资源申请

测试环境

MySQL

Redis

成本统计

技术调研

业界案例

txyz

Chatpdf

Chatdoc

Chatexcel

Biligpt