智能助手网
标签聚合 测试

/tag/测试

linux.do · 2026-04-18 20:35:22+08:00 · tech

概述 感谢各位上次发帖很多佬的交流, 上次是豪华配置,这次测了弱一点的配置 首先期望不要太高,其实这个水平的模型OpenCode还有厉害一点的Minimax M2.5免费用( 虽然刚才出现的Bug Minimax也没修好 能玩,但是上下文看自己的操作,如果有核显则可以拉到100K上下文,没有的话可能20-50K上下文了。( 所以我特别喜欢有核显的电脑 )显存比较紧急的话可以划分1层给CPU,可以拉高20K上下文应该 体感可以编程,没有什么问题 写了个时钟,还有个贪食蛇 相关说明 Apex量化的I-MINI GGUF表现真的很亮眼,损失感觉很小? Qwen3.6 35B A3B的上下文真的好便宜 模型在这里,I-MINI版本就13.3G(这里不加载视觉模块了,显存不够): Qwen3.6-35B-A3B-APEX-GGUF · 模型库 如果有Intel 358H, 338H 32G+1T, 或者AMD 890M, 780M 的用户也可以试试看,内存大可以选I-Compact的17G版本 部署环境 硬件 CPU 12450H 显卡 RTX 5060 Ti 16G 内存 单根 16G DDR4 3200 注意:显卡上没有接任何输出,BIOS设置的核显优先,界面渲染都交给了核显,如果开个渲染个界面可能就剩下13-14G显存,上下文只能开比较少或者拿一层给CPU,decode速度会降低25% 软件 后端 LM Studio 部署模型:Qwen3.6-35B-A3B-APEX-I-Mini.gguf Decode速度: 80tps 层数:全部放在GPU上 上下文:100K 关闭MMAP, 不保持模型在内存中 打开快速注意力,K缓存 V缓存量化均为Q8, Q4好像有BUG → 会导致Prefill非常慢 建议: 用来编程时,如果第一步没能做好,建议直接从第一步重开多试一次,应该会比修bug要好点,改代码bug能力没有写代码能力强的感觉 本地还能玩玩Heretic(虽然这个模型好像没什么感觉,RP不是很好,总之玩玩也不赖) 这个量化确实损失感觉没多少的样子,因为同样概率发生的bug我跑Q6量化的版本也有概率发生 对于天才编程佬们来说,模型的能力还是远远不够的,这篇文章没什么帮助,虽然如此,但是还是想要分享一下 如果发生长时间卡住,可能是模型跑出循环思考bug了,可以中断一下重新跑 题外话 话说L站没有本地部署模型的标签吗(逃 附加截图 2 个帖子 - 2 位参与者 阅读完整话题

linux.do · 2026-04-18 15:46:05+08:00 · tech

新公益站测试压力和并发,抽5个20刀先试试水。希望佬不要嫌弃老弟吝啬。 2026年4月18日15:48:07 我研究一下 linuxdo的抽奖软件。 2026年4月18日15:54:09 学会了用 https://lottery.linux.do/ 进行抽奖。 2026年4月18日16:15:23 弱弱的问一句 100 一个亿的 codex token(倍率1:1) 各位佬觉得贵吗。 2026年4月18日 16点57分 佬们为啥举报,没看懂。 2026年4月18日 19点08分 由于帖子给关闭了,提前抽奖 2026年4月18日 19点14分 url和key 均私聊发送。 ================================================================================ LINUX DO 抽奖结果 - 0.1.1 ================================================================================ 帖子链接: https://linux.do/t/topic/1994721 帖子标题: 【公益】新服务器测试压力 帖子作者: Opera111 发帖时间: 2026-04-18 15:46:05 -------------------------------------------------------------------------------- 抽奖时间: 2026-04-18 19:09:08 参与楼层: 2 - 169 楼 有效楼层: 161 楼 中奖数量: 5 个 最终种子: 533bcde8de3994f45703f514f717a5ef3e60d3b16395321599d3537b78cfa34e -------------------------------------------------------------------------------- 恭喜以下楼层中奖: -------------------------------------------------------------------------------- [ 1 ] 30 楼,楼层链接: https://linux.do/t/topic/1994721/30 [ 2 ] 11 楼,楼层链接: https://linux.do/t/topic/1994721/11 [ 3 ] 119 楼,楼层链接: https://linux.do/t/topic/1994721/119 [ 4 ] 129 楼,楼层链接: https://linux.do/t/topic/1994721/129 [ 5 ] 121 楼,楼层链接: https://linux.do/t/topic/1994721/121 ================================================================================ 注: 楼层顺序即为抽奖顺序 ================================================================================ 抽奖主题:新服务器测试压力 奖品详情: 5个20刀 codex key 活动时间: 开始时间:[2026年4月18日15:50:04] 截止时间:[2026年4月18日20:20:20] 参与方式: 在本帖下回复’任意内容’。 抽奖规则: 每位用户仅允许参与一次。 使用 XXXX 工具随机抽取中奖者。 注意事项: 本活动将在活动截止时间后关闭回帖,以确保公正性。 中奖者将在活动结束后5小时内在本帖公布,并通过 https://lottery.linux.do/通知领奖方式。 所有规则及抽奖结果由活动发起人和论坛 管理团队 最终解释。 期待您的积极参与,祝您好运!如有任何疑问,欢迎随时联系抽奖发起人。 165 个帖子 - 163 位参与者 阅读完整话题

linux.do · 2026-04-18 15:30:01+08:00 · tech

The Cloudflare Blog – 17 Apr 26 Agents that remember: introducing Agent Memory Cloudflare Agent Memory is a managed service that gives AI agents persistent memory, allowing them to recall what matters, forget what doesn't, and get smarter over time. [!quote]+ 今天,我们宣布推出Agent Memory的私有测试版,这是一项托管服务,可以从代理对话中提取信息,并在需要时提供这些信息,而不会填满上下文窗口。 它赋予人工智能代理持久记忆,使其能够记住重要信息,遗忘不重要信息,并随着时间的推移变得更加智能。 1 个帖子 - 1 位参与者 阅读完整话题

linux.do · 2026-04-18 06:50:25+08:00 · tech

开篇直接说结论——换号,先批量用反重力逐个测试现有账号,不需要管账号的层级是什么,可用账号的表现一般是可能刚开始有两三次报错,但是用上一会就会很丝滑,基本不会中断或者中断很少,如果这个账号会一直连续5次以上的retry,那直接放弃就行了,测试完选一个表现好的账号拉进家庭组基本就可以了。 结合佬友在之前帖子的判断,推断是谷歌给部分账号加上了隐藏的标签,将这部分账号的请求路由到了算力不足的测试端点,类似remote连接wsl的bug,据说闲鱼上有能加速解除不可用账号风控的方法,具体原理是使用干净的服务器转发antigravity的请求流量,对账号进行清洗,这里并没有试过,所以仅作信息的分享,真假佬友们最好自行辨别 还有就是网络环境的纯净度应该也会影响到antigravity的retry,最好使用纯净线路避免可用账号也被风控,佬友们可以试试这个方法,留下测试结果,看看这条路到底行不行的通 最后有一个令我感到困惑的地方,这个隐藏风控标签还会影响到LS反代,对不可用账号请求会返回“内核返回内容为空,且未抓取到具体报错。请检查账号状态。”,对表现好的可用账号请求就会返回200OK,我也不太懂LS反代的具体原理,有没有懂得佬友能讲讲? 4 个帖子 - 4 位参与者 阅读完整话题

linux.do · 2026-04-18 02:00:21+08:00 · tech

介于opus4.7的注意力和gemini差不多只有100k左右的有效注意力,有点想换回opus4.6 1m在Claude code中使用。 就是不知道现在的opus4.6智商是否恢复了,有没有测试过的佬呢? 1. 9.9-9.11=? opus 4.6答错 opus4.7正确 2.洗车问题 “我想洗车,洗车店离我家 50 米,你觉得我应该走路还是开车去?” opus4.6和opus4.7都正确 opus4.6 opus4.7 3.红绿色盲问题 opus4.6错误 opus4.7正确 Claude code中测试,全部设置thinking effort为max,左边为4.7,右边为4.6 1. 9.9-9.11=? opus4.6依旧错误 2.洗车问题 全部正确 3.红绿色盲问题 opus4.6依旧错误,甚至思考了3分钟都错了!!! 总结:web端和claude code端,之前opus4.6能答对的现在正确率1/3,所以opus4.6 智力依旧没有恢复 opus4.7能全部答对,但是编程中有效上下文长度有限 由于llm是概率模型,并且web和cc中不能手动设置这些采样参数,所以每次出来的结果都有可能不一样受到各种采样参数的影响. web端测试均为开启thinking,关闭web search的情形下, Claude code中测试,全部设置thinking effort为max. 9 个帖子 - 6 位参与者 阅读完整话题

linux.do · 2026-04-18 01:15:29+08:00 · tech

(\ _ /) ( ・-・) /っ 和 Grok 4.20 的大力出奇迹 16 Agent 护法不同,4.3 是个更像 Genspark 智能体那种云 Computer 类型,就是可以写入文件、执行啥的。 不过这些其实御三家前端都可以,虽然像 Claude 模型本身只支持图文,但工具集成得很屌 ✓ ↑ 配额只是 Auto 层级的,未来应该也是多线程路线。 测试 Prompt(随便搜的头盔): 这是最新款的电饭煲头盔,请为这个产品设计一个酷炫的 Web 单页。文案、配图、交互全都交由你来自主决定(使用网上现有的或使用 AI 生图都可以)。 (\ _ /) ( ・-・) /っ Grok 写的前端: 银河 · 电饭煲头盔 | 2026 赛博厨房战甲 完成度很高,虽然产品完全理解翻反了。˃̣̣̥᷄⌓˂̣̣̥᷅ 让世界首富去理解什么是电摩头盔太为难了。 15 个帖子 - 12 位参与者 阅读完整话题

linux.do · 2026-04-17 23:39:21+08:00 · tech

在此记录一个在开发自测环节中遇到的问题: 先上代码(已脱敏) type TestData struct { Data []byte `json:"data"` } func TestTryEncryptoClient(t *testing.T) { jsonStr := "{\"Data\":\"4GFwsR9XFRkyb/9Hn14zNpQRFE4V/f1hLIDlnff6LLPR/EvRmSW6ma6PHZiamB4mDeynjRYfVsfipg==\"}" message := &TestData{} err := json.Unmarshal([]byte(jsonStr), message) if err != nil { panic(err) } result := message.Data t.Logf("%v", result) t.Log(string(result)) sprintf := fmt.Sprintf("%s", result) t.Log(sprintf) t.Logf("bad base64: %s", result) t.Log("test done") } 输出内容(goland)控制台 [224 97 112 177 31 87 21 25 50 111 255 71 159 94 51 54 148 17 20 78 21 253 253 97 44 128 229 157 247 250 44 179 209 252 75 209 153 37 186 153 174 143 29 152 154 152 30 38 13 236 167 141 22 31 86 199 226 166] 짍V��� 짍V��� 짍V��� xxx_test.go:193: test done 现象描述: 此段代码会造成如下代码片段未能输出 t.Logf("bad base64: %s", result) ,并且如果是多协程测试条件下,很可能会造成控制台卡住(无法输出后续内容) 原因分析: 在此过程中,我们错误使用了%s来匹配 []byte 类型的数据,虽然golang在编译或者goland在运行前检查中不会报错/warning,但是在最终输出的时候,由于 byte[] 中包含了不能被控制台解析的控制字符,所以会造成最终输出内容的错误(也可以叫做编码不匹配),并且由于大部分编码都会兼容ASCII编码,在上述输出中会有byte为22的控制字符-> ASCII中描述为暂停等待同步字符,所以在多线程/协程测试中会导致控制台卡住等待同步完成 解决方案: 使用string现式包裹 []byte 即可 sprintf := fmt.Sprintf("%s", string(result)) 总结: 下次当遇到控制台卡住无输出的时候,记得检查是不是%s遇上了 []byte 类型的数据(常见某些加密流中的测试,用于观察加密后的字符输出) 1 个帖子 - 1 位参与者 阅读完整话题

linux.do · 2026-04-17 23:21:28+08:00 · tech

2026、04、17 灰度测试 GPT-Image-2 没轮到我,www,新一代nanobanana来了。 国产视频happyhouse应该是追上了。 我也是plus-自己老号,bug开token的9r-plus GPT-IMAGE-2 生成海报以假乱真 搞七捻三 今天看到很多人在讨论GPT-IMAGE-2,自己去生成了几张海报试了下,效果是真不错啊,提示词很简单,就是:例如“生成跑跑卡丁车,qq 飞车这两款游戏联动活动宣传海报”这样的,以下来欣赏一下效果图: [7b41f8dca6c867884de42b617f2f4c9f] [61dd66732b673860edd9cd34bda48c71] [4f2f2f0ccf6905230792f1b63… gpt图像2发布了,强过大香蕉 搞七捻三 还记得gpt4o生图的时候,那段时间简直爆火,是一个现象级突破,然后过了段时间大香蕉来了,又一个大突破,现在gpt带着他的新生图版本来了,浅浅试了一下生成文字很有进步,期待佬们的作品 做了一个梗图 [file0000000076e0720b8a6aff826aab1297] [HF61F2lasAA0Pp8] [HF61F2jasAEd539] [HF61F2lbgAAegJ] [H… 预言一手2026年底/年中,国产模型应该就能和国外顶尖追平了(coding,大概是glm6) (视频/照片/声音,字节手握那么多音视频资源,应能够飞起来) 百度将会路边一条 我口口嗨的,各位佬不要当真 对比留档 2 个帖子 - 2 位参与者 阅读完整话题

linux.do · 2026-04-17 22:42:47+08:00 · tech

写了个benchmark想看看实际的速率区别。 测试-1 (点击了解更多详细信息) bench代码 (点击了解更多详细信息) config.json (点击了解更多详细信息) 2.7-highspeed在代码生成类别速度比文字快一点,而且如果涉及到中文tps就会变低。在设定maxtoken比较小的情况下速度也会打折扣。这个速度比率和价格感觉不如买非极速版了。这个约100TPS就很灵性,主打四舍五入。bench代码的计算不知道对不对,有懂得佬看看。 3 个帖子 - 2 位参与者 阅读完整话题