AnalyzeSphere V1.1 新版上线
续更中。。。
我的第一个创业项目
万事开头难,AnalyzeSphere 是我的第一个创业项目,现在第一阶段已基本结束,记录复盘一下。 怎么开始的?刚开始的几天我们一直在想以什么形式快速上线,当时 PC Web 系统和 App 是我们优先考虑的方案,但是经过评估后发现,开发周期还是比较慢,对于快速上线没有什么优势,所以最终我们决定,以浏览器插件的形式快速上线。现在回想,这个方案也没有太大的问题,开发周期基本满足上线的时间要求,但是选用这个方案还是有几个问题之前没有考虑到,后面我会提到。 定位首先这个产品是出海项目,我们的定位是针对目标网站生成一个分析报告,报告内容包括业务概览、竞争分析、受众分析、营销策略和 SWOT 分析等。 我们的受众人群包括但不限于以下角色: 创业者 市场营销人员和 SEO 爱好者 投资者和分析师 探索创新产品和行业的求知者 开发与部署因为是出海项目,所以服务器我们选择的是阿里云香港的服务器,可以访问 Google...
AI 内容理解平台技术方案
系统架构图功能模块 多模态模型: 实现音频、视频、图片的解析功能; 语言处理模型:关键词提取等。 内容生成模型:生成摘要和总结。 技术架构图 业务数据流程图 代码工程结构图Web 服务工程结构 关键技术点全文总结文章内容长度超过模型处理上限工程层:工程层面会按业务场景约束文件的大小,然后一次发送全部内容给到模型。 模型层:将文章分为多段进行处理,再将每次的结果合并成一个新的文章,再次进行处理,最终返回摘要总结。 功能模块设计 数据采集服务主流视频、内容网站计划每天各主流网站按 Top 10 抓取,预计每天数据量在200条左右。 小红书、知乎、公众号 B站、快手、抖音(pc端) 新浪、搜狐、网易、腾讯新闻 tt、youtobe 科技文献(主要AI圈),待确定 文件上传 word/pdf/txt/ppt等文本内容 仅文本层面处理 文本、图片都识别 网盘 百度网盘地址...
AI 内容理解平台关键模块实施方案
大文件上传截断方案方案: 文档按大小限制上传(150M),按字符数限制解析存储(20w); 视频按大小限制上传(1G),按字幕字符数限制解析存储(5w); 按字符数,限制模型总结字符长度,见 1.1 各模型输入长度限制。 优点: 响应速度更快,前端用户交互体验更好; 节省调用大模型成本,见 1.3 大模型费用。 缺点: 文件总结的内容不完整 各模型输入长度与耗时各个模型单次的token输入长度限制有差异,并且请求频率也有限制,通过测试对比,以下是测试结果: 最终方案如下: 同类产品限制通过调研发现,目前同类产品都存在以下限制: 模型费用 模型名称 输入 输出 链接 智谱:GLM-4 0.1元/千tokens 同输入 ZHIPU AI OPEN PLATFORM 百川:Baichuan2 0.008元/千tokens 同输入 百川大模型-汇聚世界知识...
使用 DrissionPage 实现京东登录及滑块验证
使用 DrissionPage 实现京东登录及滑块验证 安装 DrissionPage1pip install drissionpage 编写代码代码这里我们要实现的主要就是两个功能: 自动输入用户信息进行登录 自动操作滑块进行验证并通过 这里的难点就是滑块的轨迹生成,不过值得高兴的是,登录的这个滑块目前还没有轨迹验证,在后面的商品列表获取时出现的滑块验证才是难点。 代码JdCrawler.py12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061import random import time import ddddocrfrom DrissionPage import Chromium from track import get_tracks class JdCrawler: """ 京东爬虫 ...
探索数据的无限可能:欢迎来到 AnalyzeSphere!
今天和大家分享一个新产品,它可能会改变你对数据分析的看法。 什么是 AnalyzeSphere?简单来说,AnalyzeSphere 是一个超级强大的数据分析工具,旨在帮助你更轻松地理解和利用数据。无论你是企业主、市场营销人员,还是只对数据感兴趣的朋友,我们都希望这个工具能为你带来帮助。 为什么选择我们? 简单易用:我们知道,很多数据工具都复杂得让人头疼。AnalyzeSphere 采用直观的界面设计,让你可以快速上手,不用再花时间去学习繁琐的操作。 智能分析:我们的智能算法会自动帮你找出数据中的趋势和模式,让你能够快速做出决策。这就像有一个聪明的小助手在旁边为你工作! 实时更新:在这个瞬息万变的世界里,我们确保你的数据始终保持最新,让你随时随地都能掌握一手信息。 适合谁?无论你是想要深入了解市场动态的创业者,还是希望优化业务流程的团队成员,AnalyzeSphere 都能为你提供所需的洞察力。我们相信,数据应该是每个人都能轻松获取和理解的资源。 试试看吧!如果你对这个工具感兴趣,不妨访问...
提升商品检索结果相关性
命中前提: 库里存在该商品或与该商品有关联 关键词尽可能属于商品 title 的子串,或和商品 title 相关 关键词不能只有型号,要有品牌等信息 价格区间需要正确传入 检索服务流程前端通过交互界面,输入一段 query,发送请求到检索服务,检索服务根据该 query 去库里查,分别查 ES 库和 Milvus 库,查出来之后通过 RRF 做个排序,然后把结果返回给前端。 这样做的话,结果的准确性完全取决于用户的关键词是什么。 这里涉及到几个关键环节: 用户输入 query 环节 服务接收并处理 query 环节 根据 query 查询数据库环节 从库中查询到数据返回给用户环节 优化方案 用户输入 query 环节在用户输入环节进行优化,提供输入联想、纠错等功能。 针对微信公众号这种前端输入无法控制的场景,可能无法在输入这块直接提供优化,但是也可以后置,比如发送完了之后再问一下用户是否要修改为以下提供的 query 等。 输入联想首先需要提供一个 query...