AgentVerse

由清华大学、北邮等高校研究团队发布的AI多智能体协作模拟框架
模拟多种社会实验场景，如NLP课堂、囚徒困境、软件设计等 🔗详细：github.com/OpenBMB/AgentVerse 🔗Tweet：twitter.com/xiaohuggg/status/1701234611806691810?s=20

工业仿真或者家居设计可使用

Meshy.ai

用于3D创意的AI生成工具箱
功能：2D转3D纹理、文本提示生成3D纹理、AI3D纹理工具等
使3D工作流程更加高效 🔗详细：Meshy.ai 🔗Tweet：twitter.com/xiaohuggg/status/1701194691973386443?s=20

怎么感觉最后都是为图像标注做准备。。。

Stability AI推出AI生成音乐平台：Stable Audio：

描述：输入描述性文本提示和音频长度生成音乐和音效
特点：免费版生成20秒音乐，Pro版可生成90秒 🔗网站链接：http://stableaudio.com 🔗推文链接：https://x.com/xiaohuggg/status/1701884386910871953?s=20

场景非常好，可做成SDK适配一切剪辑软件和短视频平台

🎥Flowjam 产品视频库：

提供各种产品宣传视频，为小公司和独立开发者提供灵感
价格合理，支持无限次修改的定制开发服务 🔗详细：https://x.com/xiaohuggg/status/1702973829956657288?s=20

下次做内部宣传视频、发布会、xx纪念就是你了

Google Bard 更新：

Bard发布了一个新的AI模型并与其他Google服务集成
新功能：“Google it”功能的优化与扩展，支持40种语言 🔗详细：https://x.com/xiaohuggg/status/1704103089203249350?s=20

真的能all in one么？

ElevenLabs “Projects” 功能:

用于生成和编辑长篇音频
功能：一键全文转换、发言者分配、重新生成音频片段、插入暂停等 🔗官方介绍：https://elevenlabs.io/projects 🔗https://x.com/xiaohuggg/status/1704330887683604991?s=20

转的效果还挺不错的，完全没有tts那股硬邦邦的吐字感

Flourish：

轻松地将你的数据转化为令人惊叹的可视化效果的工具
功能：创建数据图形和动画故事、无需编码或安装、无缝嵌入、品牌定制 🔗 详细：http://flourish.studio 🔗 https://x.com/xiaohuggg/status/1704860235817697384?s=20

这个还是比较适用于2B业务，往小了说就是一个轻量级业务看板的需求神器霍，生成的图还真是不错

微软365AI落地新功能看了超心动

🔥 copilot加入全家桶9月26日起海外可以正式使用 https://x.com/xiaohuggg/status/1704886721912221960?s=20

365有点杀疯了.。

AI 图像修复工具、模型大全：

一些图像修复工具+模型 🔗详细：https://x.com/xiaohuggg/status/1698981381022581104?s=20

maybe后面有用

GPT-4V(ision) Update：

今天OpenAI发布的模型其实叫GPT-4V(ision)。
OpenAI放出了19页的GPT-4V(ision)报告。
GPT-4V可以为其500,000名盲人和低视力用户提供前所未有的工具。
OpenAI还研究了模型的基于地理位置的能力，以及模型破解CAPTCHA的能力。 🔗详细：https://cdn.openai.com/papers/GPTV_System_Card.pdf

高级地图。。开玩笑了，这个军工yu适用面更广，比如。。daodan制程？

Manga-Image-Translator：一个开源的漫画图片翻译器

能够自动翻译漫画图像中的文本，当然普通的图片也可以。翻译完成后在图像在原位置替换译文。干净简洁，速度很快。
主要支持日语，汉语、英文和韩语。 🔗 http://cotrans.touhou.ai

真正的算命和占卜模型 - Mistral Trismegistus 7B：：

适合推销？？？ 🔗 https://x.com/xiaohuggg/status/1714846126371926086?s=20

Face Swapper：AI换脸工具:

视频领域 https://icons8.com/swapper

bigpixel.cn

360视图看世界 https://bigpixel.cn

Insanely Fast Whisper：极速音频转录工具：

能在98秒内转录300分钟音频。
基于OpenAI的Whisper Large v3模型改进。
支持多版本和不同配置，目前只支持Nvidia GPU。 🔗 https://t.co/qBVm8NoeqF

LCM即时绘画，体验所见所得：

LCM LoRA支持即时绘图生成，体验直观。
在线体验地址提供直接访问。
清华大学@SimianLuo开发，加速稳定扩散模型运行。 🔗 https://huggingface.co/spaces/ilumine-AI/LCM-Painter

【重点】GPT-Crawler：知识库自动爬虫工具：

爬取网站内容生成JSON文件。
方便创建自定义GPTs知识库。 🔗 https://github.com/BuilderIO/gpt-crawler

统一写爬虫轮子库？

Flowty Realtime LCM Canvas：实时草图转图像：

在MacBook上运行的实时草图转图像开源程序。
M2 Max配置下每次渲染需1.2秒。
可调整模型ID和参数以优化结果。 🔗 https://github.com/flowtyone/flowty-realtime-lcm-canvas 🔗 https://x.com/xiaohuggg/status/1727622388358267384?s=20

MCVD：通用的视频生成模型：

能创造全新视频、预测未来画面、重建过去画面。
在视频片段之间创造中间画面。 🔗 https://x.com/xiaohuggg/status/1727609231866773878?s=20

将网站变成播客/有声读物：

利用OpenAI的TTS语音API。
自动识别网页内容语言并朗读。
目前为Demo测试，需OpenAI API。 🔗 http://readany.vercel.app

ElevenLabs推出AI语音转换器：Voice-Changer：

转换不同声音或角色。
控制情感和传递方式。 🔗 https://x.com/xiaohuggg/status/1727519973718040838?s=20

draw-fast：草图到实物图渲染工具

实时将草图转换成真实图像。
项目基于 @fal_ai_data 的 LCM 模型。 🔗 https://github.com/tldraw/draw-fast

【重点】今日无题，学学论文

https://waytoagi.feishu.cn/wiki/OCXXwcOk1iDsDekyNgFcXOEVnne https://www.bilibili.com/read/cv28006457/?jump_opus=1

OpenAI大模型原理和训练过程

DREAM-Talk - 照片说话项目：

字节跳动开发，单张图片生成说话面部动画。
支持多种情感表达和多语言。 🔗 https://magic-research.github.io/dream-talk/

OpenSaaS - 免费开源的SaaS模板：

提供预配置的功能丰富平台，便于构建应用。
包含用户认证、内置博客、支付系统等。
特别适合小型团队和个人开发者。 🔗 http://opensaas.sh

【重点】AppAgent - 人类操作模拟AI：

自主学习模仿人类手势，执行多种手机任务。
由腾讯和德州大学达拉斯分校研究团队开发。 🔗 https://appagent-official.github.io

MJ 6.0 牛逼。。。。。

Prompt：Minimalist editorial photo, <人物姓名> portrait. --ar 4:3 --v 5

DreamTuner 图像生成工具：

由字节跳动开发，通过单张图片创造主题一致的新图像。
可以将物体置入不同场景或添加元素。
适合创造个性化主题图像。 🔗 https://dreamtuner-diffusion.github.io

ControlRoom3D 3D房间设计：

根据布局和风格描述设计3D房间模型。
自动调整房间深度和物体表面细节。 🔗 https://jonasschult.github.io/ControlRoom3D/

AI视频搜索引擎：

搜索引擎允许用问题查询视频。
可与视频进行互动对话，自动总结内容。
已索引约17245个YouTube视频，计划扩展到TikTok。 🔗 https://avse.vercel.app

微软新手AI课程

丢给老爸老妈看看能不能看懂 https://github.com/microsoft/generative-ai-for-beginners

扫描物体生成3D模型：

使用APP扫描物体，完成3D全貌捕获。
创建AR QR码，展示物体于任何地点。
苹果新品官网展示中应用此技术。

好像摆摊不错 🔗 https://ar-code.com/blog/digitalizing-restaurant-menus-with-augmented-reality-qr-codes

Search2AI联网服务：

为ChatGPT第三方客户端提供联网服务。
自动判断用户意图，决定是否联网查询。
支持Google和Bing，计划扩展更多服务和场景。 https://github.com/fatwang2/search2ai

Assistive Video一个新的AI生成视频的工具：

通过文字提示或图片生成视频内容。
用户可控制视频质量和内容一致性。
体验地址：https://assistive.chat/product/video

Figure-01机器人自学煮咖啡：

Figure-01机器人利用神经网络通过观察视频录像学会煮咖啡。
使用端到端AI系统，无需编程。
FigureCEO Brett Adcock宣布AI突破。 🔗 https://x.com/xiaohuggg/status/1743998321977672058

Clipper：HTML到Markdown转换器：

简易将网页内容转换为Markdown格式。
包含爬虫功能，剪辑并转换网站内容。
支持多种输出格式，适用于数据提取。 http://github.com/philschmid/clipper.js/tree/main

Magnific AI图像升级器：

图像提升至10K级别。
支持Midjourney图像放大8倍。
新特性：Fractality滑块。 🔗 https://twitter.com/xiaohuggg/status/1744559983243694528?s=20

BetterYeah AI

内置数十个国内外大模型：内置ChatGLM、阿里通义千问、百度千帆等国内外知名大模型，无需单独分别申请，一键使用
可视化workflow：用户友好的界面，支持各种开发节点，如LLM、Memory、Code和API等，5分钟就可以快速搭建一个AI应用
简单易用的数据集：为您提供一系列数据处理工具，包括数据清洗、自动向量化等
灵活的开发运维：全方位的开发运维服务，如在线调试、日志追踪、一键发布等 🔗 https://ai-docs.betteryeah.com/guide/dataset-quick-start/

Personalized Restoration：面部图像精准恢复和个性编辑技术

高效恢复受损图像细节，保留个人面部特征。
支持面部交换和文本引导编辑功能。
结合文本引导和模型调整的双轴方法。 🔗 Personalized Restoration via Dual-Pivot Tuning

Topaz Video AI 4发布，提升视频至16K分辨率：

引入24种时序感知AI模型。
电影级噪声去除技术。
单次购买299美元。 🔗 https://topazlabs.com/topaz-video-ai

LEGO多模态理解模型：

由字节跳动和复旦大学开发。
支持图像、音频、视频输入，具备精准定位能力。
可用于识别图像中物体位置，视频事件时间点，音频声源。 🔗 https://x.com/xiaohuggg/status/1745763961323262056?s=20 🔗 https://lzw-lzw.github.io/

Surya：多语言文档OCR工具：

提供准确的逐行文本检测和识别。
特点：逐行文本检测，文本识别，表格和图表检测（即将推出）。
支持语言：包括英语、中文、日文、印地语等。 🔗 https://t.co/HvqtVwNZ7p

Portkey AI网关 - 连接多种AI模型的工具：

提供简单API接口，连接超过100种大语言模型。
包括OpenAI、Anthropic等知名AI服务。
体积仅45kb，处理速度提升9.9倍。
灵活配置，方便切换不同AI服务。 🔗 https://github.com/Portkey-AI/gateway

大厂入局

PhotoMaker - 创造个性化人物图像：

可以根据文字描述生成人物照片。
能混合不同人物特征创造新形象。
改变照片中人物的性别、年龄。 🔗 https://photo-maker.github.io

不错的博客

24、25 年会是下一代浪潮最关键的两年 | AI 年终复盘

https://www.xiaoyuzhoufm.com/episode/65a2a75fb5e4856c70801eba

文生图/文生视频技术发展路径与应用场景

26种多模态大模型研究报告：

全面分析市面上的26种多模态大语言模型（MM-LLMs）
涵盖模型架构、训练流程设计
每种模型具有独特设计和功能 🔗 https://arxiv.org/abs/2401.13601

OpenAI推出新一代嵌入模型

新嵌入模型：text-embedding-3-small和text-embedding-3-large。
新模型性能普遍优于上一代，特别是在多语言检索方面。
GPT-4 Turbo预览版模型更新，提高代码生成等任务的完成度。 🔗 https://x.com/xiaohuggg/status/1750688990104330481?s=20

Adept Fuyu-Heavy：多模态数字代理模型

世界第三大多模态模型，擅长理解用户界面。
可以解释和操作各种软件和应用程序的界面。
帮助执行任务如自动化流程、响应查询等。 🔗 https://x.com/xiaohuggg/status/1750704152605499508?s=20

重要-ChatGPT推出Mention功能

Mention可以在ChatGPT的聊天窗口中通过@来直接召唤任何GPTs，就像Discord里面召唤其他机器人一样
这样不用来回切换窗口就能完成不同任务这样可以实现调用多个机器人的联动操作，完成一个任务

这是生态建立的里程碑，想象一下，以后所谓的流程引擎可以不通过图形化拖拉拽操作（没错，现在就是这么死板），后面是多接口自发互相协调，是自发！

百川智能的Baichuan 3模型：

中文任务评测表现卓越，超越GPT-4。
在医疗领域和中华传统文化理解方面表现突出。
引入创新技术，提高训练效率和数据质量。 🔗 https://x.com/xiaohuggg/status/1751830719222124727?s=20

SliceGPT - 微软开发的大语言模型压缩方法：

在保持高性能的同时大幅减少模型参数。
允许在更少的GPU上运行，提高运行速度。
显著降低了在消费级GPU上的总计算量。 🔗 https://arxiv.org/abs/2401.15024

AnyV2V视频编辑框架：

无需训练，与任何模型集成。
支持文本提示的各种视频编辑，包括风格转换和面部替换。 🔗 https://tiger-ai-lab.github.io/AnyV2V/

Apple Vision Pro教育应用：

Insight Heart应用程序提供360度心脏学习体验。

DALL-E 3图像再编辑：

支持对生成图像的选定区域进行修改。
引入编辑器增强图像编辑能力。
处于灰度测试阶段。 🔗 https://x.com/imxiaohu/status/1772470419435536696?s=20

Hand Talk：

AI手语翻译，联合国最佳社交应用， 🔗 https://www.handtalk.me/en/app/

OpenAI 发布 GPT-4-Turbo 正式版：

全面开放，自带视觉能力，128k上下文。
训练数据截至2023年12月，价格保持一致。 🔗 https://x.com/imxiaohu/status/1777822285732438513?s=46