#开源
SoulX-Transcriber 开源多人对话转录模型:端到端架构,性能登顶公开基准测试
语音转文字(ASR)技术在 AI 时代已广泛应用,从会议记录到播客字幕,从在线教育到社交媒体,几乎每一个与语音相关的场景都离不开转录技术的支持。然而,当场景从单人演讲转向多人对话时,传统转录系统面临诸多挑战:多人同时发言、语速飞快重叠、主…
Cua 开源项目:让 AI Agent 安全控制桌面的三层架构(1.7万 Star)
Cua 是一个开源项目,短短几个月在 GitHub 上收获了 1.7 万+ Star。它由曾在 Xbox 和 Microsoft AI 工作的开发者创建,后加入 YC 创业。Cua 的核心目标是:让 AI Agent 安全地控制整个桌面系统…
OmniVoice Studio:免费开源AI语音生成工具,3秒克隆音色+视频自动配音
OmniVoice Studio 是一款完全开源、完全本地运行的 AI 语音工具,支持 646 种语言,4GB 内存即可运行,自带视频自动配音和 MCP 协议支持。
简单讲,它是一个本地语音工作站,集语音克隆、声音设计、视频翻配、实时听写于…
Holo3.1开源Computer Use模型发布:35B版性能超越Qwen3.5、Claude Sonnet 4.6
6 月 2 日,法国 AI 公司 H Company 推出 Holo3.1 系列开源计算机控制大模型。这是继两个月前 Holo3 发布后,该团队针对生产环境反馈优化的版本,核心解决此前计算机控制 AI 代理(Computer-use Age…
内容创作者必装的 10 个开源Skills:从写作到发布全流程工具推荐
内容创作者真正缺的不是"更多 AI 工具",而是一套能稳定复用的工作流。Skills 的价值在于把提示词、流程、方法论封装起来,让创作者不用每次从零开始摸索。
本文整理了 10 个适合内容创作者的开源Skills,覆盖选题、撰稿、配图、封面…
MarkItDown:微软开源文档转Markdown工具,14万Star助力AI数据处理
把 PDF、Word、PPT、Excel 喂给大模型,结果不是乱码就是表格崩了,要么整个结构完全丢失。为每种格式写一套转换脚本——PDF 用 PyPDF2,Word 用 python-docx,PPT 用 pytho…
Lingji Cut(灵剪):开源本地优先的 AI 视频全链路创作工作台
在 AI 视频创作领域,从快手可灵到字节 Seedance 2.0,行业正在被 AI 快速重构。然而,市面上的工具大多存在割裂问题:写稿用一个工具,素材管理用另一个,语音合成又要换,最后剪辑还得打开大型软件。一套流程下来,频繁切换窗口不仅效…
MTools:开源跨平台全能工具箱,集图片处理、音视频编辑与 AI 辅助于一体
MTools 是一款开源、跨平台的全能桌面工具集,整合了图片处理、音视频编辑、AI 智能辅助和开发辅助四大模块。该软件支持本地离线运行并具备 GPU 硬件加速能力,旨在替代日常使用的多个零散小工具,兼顾效率与隐私安全。
MTools 采用 …
claude-tap:AI Agent 的流量监控与 Token 分析利器
使用 Claude Code 等 AI Coding Agent 时,每月的账单可能高达数百美元。但你是否清楚这些费用具体花在了哪里?每次 API 请求发送了多少 Token?System Prompt 中包含了什么内容?多轮对话的上下文是…
Understand-Anything:4.7 万 Star 的开源代码理解工具,快速梳理老旧项目
刚入职一家新公司,第一任务就是要快速上手分配给我们负责的项目代码。但往往缺少项目文档,甚至连代码里的注释都没有,而上一个维护项目的同事又走了。此时我们面对着几十万行代码量的老项目,相信大家都会多少有点不知从何入手。
虽然可以让 AI 帮忙,…