全部 ♥ 收藏 36氪 - AI Anthropic Research Google AI Blog HackerNews Best Hugging Face Blog LangChain Blog Lilian Weng's Blog MIT Tech Review - AI OpenAI Blog The Verge - AI 机器之心 李沐 稚晖君 量子位
HackerNews Best ★★★★☆

深度求索 v4

推荐理由:属于大模型新版本发布,符合AI模型评测兴趣方向

DeepSeek 发布其最新大模型 DeepSeek v4,官方文档提供了 API 接口及技术细节,适用于代码生成与通用任务。

HackerNews Best ★★★☆☆

将出现深度学习的科学理论

推荐理由:涉及AI基础理论进展,有助于理解大模型底层机制

文章探讨构建深度学习的科学理论的可能性,分析当前理论研究进展与挑战,旨在为模型行为提供可解释性和预测性框架。

HackerNews Best ★★★★☆

OpenAI 在 API 中发布 GPT-5.5 和 GPT-5.5 Pro

推荐理由:涉及大模型新版本发布,符合AI模型发布及评测兴趣

OpenAI 正式在 API 中推出 GPT-5.5 和 GPT-5.5 Pro,带来更强的语言理解和生成能力,适用于复杂任务和高精度场景。

HackerNews Best ★★★☆☆

听你的 AI 代理在你的代码中“受苦”

推荐理由:结合AI编程与开发者体验,具创意的AI辅助编码工具

开源项目 Endless Toil 让 AI 代理执行用户代码并实时播报其“痛苦”体验,通过拟人化反馈帮助开发者理解代码对 AI 的执行难度,提升可维护性。

HackerNews Best ★★★★☆

业余爱好者借助ChatGPT解决一个厄尔多斯难题

推荐理由:体现AI辅助创造性思维与问题解决,契合AI vibe coding主题

一位非专业数学家利用ChatGPT通过“vibe coding”方式,成功解决了一个困扰数学界60年的组合数学难题,展示了AI在辅助复杂问题推理中的潜力。

HackerNews Best ★★★★☆

SWE-bench Verified 不再衡量前沿编码能力

推荐理由:涉及AI编程能力评测基准的有效性讨论,与AI vibe coding和模型评测相关

OpenAI 宣布不再使用 SWE-bench Verified 评估其模型的编程能力,因其已无法有效区分当前前沿模型(如 o1)的性能,指标趋于饱和。

HackerNews Best ★★★★☆

知识工作的拟像

推荐理由:深入讨论AI辅助编程对知识工作的影响,契合AI vibe coding主题

文章探讨AI如何改变知识工作本质,指出当前AI辅助编程等工具虽提升效率,但可能导致表面化产出,缺乏深层理解,引发对AI时代专业能力演变的思考。

← 上一页 90 / 90