您的位置:首页 > 互联网

Devin第一手使用体验:完成度很高,开始编码就停不下来,但要替代程序员还很远

发布时间:2024-03-16 18:19:55  来源:互联网     背景:

声明:本文来自于微信公众号新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】Devin到底是一个漂亮的Demo,还是一个已经能替代程序员的智能体,使用体验怎么,拿到测试资格的网友第一时间分享了自己的体验。

由10枚IOI金牌在手的创业团队Cognition AI开发的全球首个AI程序员智能体Devin,一发布就让科技圈坐立不安。

在演示中,Devin几乎已经可以独立完成很多人类程序员需要大量时间才能完成的工作,效果一点不比普通程序员差。

但是,产品能力的边界在哪里,实际体验和演示时候有差距,还的看上手实测之后的效果。

这位斯坦福的小哥在Devin发布的第一时间就联系了团队,获得了第一手体验的资格。

马斯克有关正面新闻

他让Devin帮它做了几个难度不一的项目,录制了一个视频,在推上写下了自己的使用感受。

首先是让Devin做一个用API获取股票价格的软件:

下一个任务是让Devin做一个可以让普通用户直接与大模型下棋的网站。

需求复杂的编程任务还搞不定

用户下一步棋,系统会翻译成提示词给GPT-4,然后GPT-4进行回复,然后回复再被转换为反映在棋盘上的具体某一步棋。

按照小哥的要求,系统需要由相当多的部件组成。

他个人最为关注在这个系统的开发过程中,Devin能不能做到以下几点:

  • 知道如何准确地使用GPT-4API,因为大多数LLM实际上并不知道如何使用,并且API的调用存在版本冲突。

  • 正确地请求API密钥并安全地处理。

  • 处理包错误。

  • 了解如何提示LLM下棋并能精确地返回提示词。

  • 令小哥想不到的是,Devin不仅要求小哥提供API密钥,而且在试用过程中还可以正确地保护它。

    不过,Devin目前反馈速度还相当慢,小哥推测是因为后台发生的代理提示远远比要看到的要多得多。

    从小哥发起请求开始,它花了大约19分钟才询问API密钥。

    小哥猜测,如果延迟是由于他们在后台运行大量提示造成的,那么延迟应该会随着时间的推移而加快。

    因为他们以后可以访问专用GPU或与Claude或OpenAI合作降低延迟(估计是GPT-4或Claude Opus)。

    Devin首先制定了一个规划。

    在右上角,用户可以切换跟随状态,这样用户可以将屏幕自动移动到#Devin当前激活了的选项卡上。

    小哥没有打开跟随状态,因为他希望随时观察各个位置的变化。

    规划器会随时保持针对当前任务的更新状态。

    Shell看起来和普通的Shell没什么区别,但用起来真的很有趣!

    Devin在工作过程中会打开多个shell,在shell的底部,用户可以拖动蓝色滑块来往前查看Devin编写的命令。

    下图是它当在尝试调试棋盘未渲染的内容。

    与此同时,小哥要求它再执行一个数据分析的任务。

    小哥让Devin去创建一张过去五十年南极洲海水温度的地图。

    对于这个请求,小哥觉得有两个方面可能很具有挑战性:

  • 处理空间数据绘图/可视化。

  • 知道在哪里下载数据,而且了解如何使用数据源,因为地理空间数据处理起来很麻烦。

  • Devin能像一个优秀的程序员一样聪明地阅读自述文件,并且还执行一些基本的EDA来理解数据结构。

    数据居然是一个ascii文件,小哥觉得有点奇怪。

    小哥单击对话调试Python脚本...中的其中一个步骤时,它会打开与该步骤相关的代码库部分,因此可以跟踪某一个具体时间点发生的情况。

    小哥比较担心的是,如果不是必须要询问API密钥,Devin似乎会不停地编码停不下来。

    所以他试了试是否可以更改他之前提出的请求或指定其他内容,中断Devin的编码过程。

    因为对于大部分用户在编码时,都有可能会改变主意或者有一些新的东西想要添加进系统之中,能够处理这种情况是很有必要的。

    这是编码过程中的截图:

    浏览器界面的呈现方式如下:

    然后小哥又提了针对数据可视化的任务又提了一个要求,让系统将高温设置为蓝色,低温设置为红色。

    互联网金融服务平台模式

    为了不中断编码的过程,似乎Devin又开启了一个工作线程来记录小哥的临时要求。

    最终,Devin将APP部署到了Netlify上了,一个应用已经上线了。

    网页的链接:https://t.co/wTbtz2waDn

    就像人类写的程序一样,第一个版本肯定是有Bug的。

    因为小哥要求的是南极洲的温度记录,似乎对于Devin来说它理解起来有些障碍。

    于是小哥把要求显示的位置改为了北美。

    总结

    小哥没有给出Devin修改了Bug的结果,只是初步总结了用Devin开发的第一个网站的使用体验。

    先说优点:

    Devin产品化做得很好,他给人的使用体验是一个完整的产品而不是只是一个简单的对话框。

    AI是系统最关键的部分,但支撑AI功能的产品化的结构是Devin的亮点。

    Devin能够完成自动部署,API密钥保护,随时修改和添加需求等等非常好的各种功能。

    产品的完成度已经非常高了,远远超过了一般的演示Demo。

    再说缺点:

    Devin的反应还很慢,当然小哥也说,因为他用的是1M的Starlink来上网,所以反应慢很有可能是他自己的原因。

    其次就是还不能允许用户直接自己编辑代码,而且也没法协作完成。

    当然,最初那个下棋的应用,难住了Devin,最终没有完成部署。而那个数据可视化的任务,似乎也有些Bug。

    最终,小哥用Devin做了一个chrom插件,可以帮助用户把Github repo转化成Claude prompt。

    插件下载地址:https://t.co/k3l8JTWK7Z

    网友评价

    网友看了这个实测之后还是感觉有点失望,毕竟这个任务一个初级程序员是能做到的,但是Devin的可视化项目的结果只做出了一个有Bug的网页。

    看样子Devin本质上还只是一个可以上网的大模型,现在要让他解决实际问题还有难度。

    参考资料:

    https://twitter.com/itsandrewgao/status/1768012781083566217?s=20

    https://twitter.com/varunshenoy_/status/1767591341289250961?s=20


    返回网站首页

    本文评论
    open公司「OpenAI没有上市计划!CEO给出这样的理由……」
    ①在微软追加投资后,OpenAI的估值已接近300亿美元; ②OpenAI将自身定义为有限盈利(capped-profit)企业; ③OpenAI联合创始人兼CEO称,公司没有上市计划。 财联社6月7日讯(编辑 夏军...
    日期:06-07
    女生把旧羽绒服改羽绒被省下千元 网友大赞省钱小能手_旧羽绒服改羽绒服多少钱
    近日,一位姑娘小陈在杭州余杭秀出了自家改造的新羽绒被,惊艳众人。她巧妙地利用已经落灰的七八件旧羽绒服,成功省下了数千元。小陈表示:“没想到压箱底的旧衣服,还挺值钱的!”整个...
    日期:12-27
    采用1.57mm超窄边框+固态按键 「iPhone」-15 Pro Max机模上手视频流出
    这段时间以来,外界关于新一代的iPhone15系列的爆料越来越密集,不出意外的话该系列将继续推出包含iPhone 15、iPhone 15 Plus、iPhone 15 Pro和iPhone15 Pro Max四款机型,其中后...
    日期:09-17
    苹果 iPadOS 17 兼容性曝光,三款 iPad 将无法更新_ipad2版本不兼容
    IT之家 4 月 24 日消息,苹果今年将推出新的 iPadOS 17 系统,但不是所有的 iPad 都能享受到这一更新。据可靠消息,苹果将在 iPadOS 17 中放弃对三款 iPad 的支持,它们分别是 iPad...
    日期:04-24
    比亚迪电子:前三季度营业额711.56亿元 同比增长7.92%「比亚迪电子中期业绩」
    10 月 28 日讯:比亚迪电子发布未经审计业绩称,前 9 个月营业额为711. 56 亿元,同比增长7.92%。母公司权益拥有人应占溢利12. 37 亿元,同比减少42.66%;每股盈利0. 55 元。iphone...
    日期:10-28
    dr钻戒为什么这么火「两度被骂上热搜,DR钻戒“真爱”营销难再续」
    被各种商家营销套路侵害权益?买到的商品出故障投诉无门? 黑猫投诉平台全天候帮您解决消费难题【消费遇纠纷,就上黑猫投诉】   文 / 梁又匀  责编 /;高梦阳新华三5G  编...
    日期:10-03
    申请繁琐且效果一般,马斯克或已弃用这一"隐身"方法_马斯克 defi
    10月30日消息,为了帮助知名人士隐匿自己私人飞机的行程轨迹,美国联邦航空局(FAA)启动了ICAO飞机注册隐私项目(PIA)。埃隆·马斯克(Elon Musk)也参加了这一项目。但最新消息显...
    日期:10-30
    苹果公司计划于9月7日举行iPhone 14、Apple Watch发布会_苹果官网10月8日
    据彭博社记者Mark Gurman报道,苹果公司计划在9月7日(星期三)举行其首次秋季发布会活动。这次活动将重点介绍iPhone 14机型和Apple Watch Series 8。标准版iPhone 14机型预计变...
    日期:09-11
    hellokitty手机「三星hellokitty手机」
    Hello Kitty 手机是一个特别的手机,首先,它是有一个可爱的 Hello Kitty 图案的,很多年轻人和女孩都非常喜欢这种通信设备。Hello Kitty 手机可谓是符合现代年轻人对于手机的要...
    日期:06-03
    2023年智能手机「2023年手机市场除了折叠屏,还有什么大动作?」
    除了全折叠屏,2023 年手机还能在哪个方向里发展?2023年手机还能在哪个方向发力?如今已经是一个百花争艳,百家争鸣的时代。各大手机厂商都有自己的特色。例如荣耀提出了护眼屏(刷...
    日期:07-20
    谷歌在欧盟九国遭投诉:广告竞价侵犯百姓隐私(欧盟谷歌案)
      [摘要]欧盟隐私活动人士就美国网络巨头谷歌处理在线广告数据的方式向法国、德国和其他7个欧盟国家政府的数据保护监管机构提出投诉,谷歌在欧洲面临的个人隐私问题将加剧...
    日期:01-10
    5G云游戏产业峰会_5G云游戏产业“登云奖”年度榜单发布 优刻得连夺三元
      近日,由中国互联网协会、电信终端产业协会共同指导,中国信通院、5G云游戏产业联盟等共同主办的“2020年度5G云游戏产业年会暨第一届‘登云奖’颁奖典礼”在京顺利召开。...
    日期:07-10
    AI海洋中的海妖之歌:腾讯AI Lab大模型幻觉问题综述
    机器之心专栏机器之心编辑部在古希腊的神话中,有一种名为塞壬 (Serin) 的海妖,她们通过美丽的歌喉制造幻像,诱导往来的船只触礁沉没。大规模语言模型在众多下游任务中展现了惊...
    日期:09-14
    被“薅羊毛”的瑞幸,一季度赚了5.6亿_瑞幸赚钱了吗
    声明:本文来自于微信公众号 伯虎财经(ID:bohuFN),作者:陈平安,授权转载发布。5月1日,瑞幸咖啡(下简称瑞幸)发出了了一份堪称“狂飙”的一季度财报。财报显示,今年一季度瑞幸营收达到...
    日期:05-10
    amd x4 855「荣耀 X40 GT 5G 新机官宣:性能跃级标杆」
    10月8日消息:荣耀手机官方微博今日上午宣布,荣耀 X40 GT 新机即将登场。官方海报显示,荣耀 X40 GT 支持5G,号称「性能跃级标杆」。小米k40pro会降价吗华为鲲鹏四大合作据了解,上...
    日期:10-11
    女子应聘行政岗位被要求只要单身 HR:希望全身心投入工作
    年后招聘,很多求职者表示在面试时常被问及个人隐私,虽不想回答,但为了找工作又不得不说。2月8日消息,据拇指视频报道,广东东莞女子应聘行政岗位,HR要求只要单身。任女士表示,找工作...
    日期:02-08
    徕卡CEO:我给小米13 Ultra打满分,影像体验“前所未有”「小米11ultra和莱卡」
    4月12日,全球领先的消费电子及智能制造公司小米宣布,与全球影像领域的领先品牌徕卡合作的最新产品小米13Ultra,即将于4月18日正式发布。同日,徕卡相机公司CEO Matthias Harsch一...
    日期:04-13
    2023中国海外人才创新创业大赛第十一赛区(广东深圳)国内分赛成功举办!
    软银愿景基金领投,Keep完成3.6亿美元F轮融资三星最近发布会8 月 25 日,以“打破界限,引领未来”为主题的 2023 中国海外人才创新创业大赛第十一赛区(广东深圳)国内分赛区决赛在...
    日期:09-07
    OpenAI技术支持 微软必应推出AI绘图功能
    3月22日消息,美国当地时间周二,微软宣布在必应搜索和浏览器Edge中增加AI图像生成功能,只需依据文字描述就能生成相应图片。这一新功能名为Image Creator,由OpenAI的生成式图像生...
    日期:10-05
    甚至没动工!《赛博朋克2077》续作明年才将投入开发「赛博朋克2077 续作」
    快科技6月4日消息,早在2022年,CDPR官方就曾宣布,将为《赛博朋克2077》推出一款内部代号为Project Orion”的续作。但根据最新消息,这款早在去年就被公布的续作,现在可能还仅仅处...
    日期:06-04