AI头条

10月28

  • Alias-Free Generative Adversarial Networks

    10:20 作者:xiaoxingxing

    我们观察到,尽管它们具有层次卷积性质,但典型生成对抗网络的合成过程以一种不健康的方式依赖于绝对像素坐标。这表现为,例如,细节似乎粘在图像坐标上,而不是所描绘对象的表面上。 我们将根本原因追溯到粗心的信号处理,导致发电机网络出现混叠。将网络中的所有信号解释为连续的,我们导出了普遍适用的小型架构更改,以确保不需要的信息不会泄漏到分层合成过程中。由此产生的网络与StyleGAN2的FID匹配,但在内部表示上存在显著差异,即使在亚像素尺度上,它们也与平移和旋转完全相同。我们的结果为更适合视频和动画的生成模型铺平了道路。We observe that despite their hierarchical convolutional nature, the synthesis process of typical generative adversarial networks depends on absolute pixel coordinates in an unhealthy manner. This manifests itself as, e.g., detail appearing to be glued to image coordinates instead of the surfaces of depicted objects. We trace the root cause to careless signal processing that causes aliasing in the generator network. Interpreting all signals in the network as continuous, we derive generally applicable, small architectural changes that guarantee that unwanted information cannot leak into the hierarchical synthesis process. The resulting networks match the FID of StyleGAN2 but differ dramatically in their internal representations, and they are fully equivariant to translation and rotation even at subpixel scales. Our results pave the way for generative models better suited for video and animation.PDFAbstract

    Alias-Free Generative Adversarial Networks

    论文关注趋势
    分享到

10月25

  • Parameter Prediction for Unseen Deep Architectures

    00:00 作者:xiaoxingxing

    深度学习已经成功地实现了机器学习管道中特征设计的自动化。然而,优化神经网络参数的算法大多是手工设计的,计算效率低下。 我们研究是否可以利用过去训练其他网络的知识,利用深度学习直接预测这些参数。我们介绍了一个由各种神经结构计算图组成的大规模数据集——DeepNets-1M,并使用它来探索CIFAR-10和ImageNet的参数预测。通过利用图形神经网络的进步,我们提出了一种超网络,它可以在一次只需几分之一秒的前向传递中预测性能参数,即使在CPU上也是如此。该模型在不可见和多样的网络上取得了令人惊讶的良好性能。例如,它能够预测ResNet-50的所有2400万个参数,在CIFAR-10上实现60%的准确率。在ImageNet上,我们的一些网络的前五名准确率接近50%。我们的任务以及模型和结果可能导致一种新的、计算效率更高的训练网络范例。我们的模型还学习了神经结构的强大表示,使其能够进行分析。Deep learning has been successful in automating the design of features in machine learning pipelines. However, the algorithms optimizing neural network parameters remain largely hand-designed and computationally inefficient. We study if we can use deep learning to directly predict these parameters by exploiting the past knowledge of training other networks. We introduce a large-scale dataset of diverse computational graphs of neural architectures - DeepNets-1M - and use it to explore parameter prediction on CIFAR-10 and ImageNet. By leveraging advances in graph neural networks, we propose a hypernetwork that can predict performant parameters in a single forward pass taking a fraction of a second, even on a CPU. The proposed model achieves surprisingly good performance on unseen and diverse networks. For example, it is able to predict all 24 million parameters of a ResNet-50 achieving a 60% accuracy on CIFAR-10. On ImageNet, top-5 accuracy of some of our networks approaches 50%. Our task along with the model and results can potentially lead to a new, more computationally efficient paradigm of training networks. Our model also learns a strong representation of neural architectures enabling their analysis.PDFAbstract

    Parameter Prediction for Unseen Deep Architectures

    论文关注趋势
    分享到

9月23

  • Layered Neural Atlases for Consistent Video Editing

    00:00 作者:xiaoxingxing

    我们提出了一种将输入视频分解或“展开”为一组分层2D地图集的方法,每个地图集提供视频上对象(或背景)外观的统一表示。对于视频中的每个像素,我们的方法估计其在每个地图集中对应的2D坐标,为我们提供视频的一致参数化以及相关的alpha(不透明度)值。 重要的是,我们设计的地图集具有可解释性和语义性,这有助于在地图集领域进行简单直观的编辑,所需的手动工作最少。应用于单个2D图集(或输入视频帧)的编辑将自动且一致地映射回原始视频帧,同时保留遮挡、变形和其他复杂场景效果(如阴影和反射)。我们的方法使用基于坐标的多层感知器(MLP)表示映射、地图集和Alpha,它们在每个视频的基础上联合优化,使用视频重建和正则化损失的组合。通过纯二维操作,我们的方法不需要任何关于场景几何体或相机姿势的先验三维知识,并且可以处理复杂的动态真实世界视频。我们演示了各种视频编辑应用程序,包括纹理映射、视频样式转换、图像到视频纹理转换以及分割/标记传播,所有这些都是通过编辑单个2D atlas图像自动生成的。We present a method that decomposes, or "unwraps", an input video into a set of layered 2D atlases, each providing a unified representation of the appearance of an object (or background) over the video. For each pixel in the video, our method estimates its corresponding 2D coordinate in each of the atlases, giving us a consistent parameterization of the video, along with an associated alpha (opacity) value. Importantly, we design our atlases to be interpretable and semantic, which facilitates easy and intuitive editing in the atlas domain, with minimal manual work required. Edits applied to a single 2D atlas (or input video frame) are automatically and consistently mapped back to the original video frames, while preserving occlusions, deformation, and other complex scene effects such as shadows and reflections. Our method employs a coordinate-based Multilayer Perceptron (MLP) representation for mappings, atlases, and alphas, which are jointly optimized on a per-video basis, using a combination of video reconstruction and regularization losses. By operating purely in 2D, our method does not require any prior 3D knowledge about scene geometry or camera poses, and can handle complex dynamic real world videos. We demonstrate various video editing applications, including texture mapping, video style transfer, image-to-video texture transfer, and segmentation/labeling propagation, all automatically produced by editing a single 2D atlas image.PDFAbstract

    Layered Neural Atlases for Consistent Video Editing

    论文关注趋势
    分享到

6月17

  • COCO新记录:60.6AP!微软提出采用注意力机制进行检测头统一的Dynamic Head

    19:20 作者:xiaoxingxing

    本文提出一种新颖的动态头框架,它采用注意力机制将不同的目标检测头进行统一。COCO数据集上实验验证了所提方案的有效性与高效性。以ResNeXt-101-DCN为骨干,将目标检测的性能提升到了54.0AP。 目标检测中定位与分类合并的复杂性衍生出了各式各样的算法,然而这些方法从不同的角度出发进行目标检测性能的提升,难以从一个统一的角度进行分析度量。 本文提出一种新颖的动态头框架,它采用注意力机制将不同的目标检测头进行统一。通过特征层次之间的注意力机制用于尺度感知,空间位置之间的注意力机制用于空间感知,输出通道内的注意力机制用于任务感知,该方法可以在不增加计算量的情况显著提升模型目标检测头的表达能力。 COCO数据集上实验验证了所提方案的有效性与高效性。以ResNeXt-101-DCN为骨干,我们将目标检测的性能提升到了54.0AP,取得了一个新的高度;更进一步,采用最新的Transformer骨干与额外数据,我们可以将COCO的指标推到一个新记录:60.6AP。原文连接

    最热论文
    分享到

5月20

  • 2020 百度奖学金名单出炉!十位顶尖 AI 学子上榜,每人20万奖金……….

    14:29 作者:xiaoxingxing

    今日(5月20日),2020 百度奖学金正式公布获奖学子名单。 来自清华大学、麻省理工学院、斯坦福大学等国内外顶尖学府的10位 AI 领域中国学霸们通过层层选拔脱颖而出,分别获得百度颁发的20万元人民币奖学金。 本届百度奖学金自2020年7月正式启动以来,吸引了世界范围内顶尖AI英才们的关注,不少高校的有志青年纷纷报名。历经了专家团队的初审、复审、终审等层层考核后: 清华大学庞天宇、清华大学陈冲、浙江大学任意、哈尔滨工业大学覃立波、上海交通大学李永露、北京理工大学魏恺轩、悉尼科技大学董宣毅、麻省理工学院王瀚锐、斯坦福大学尤佳轩、卡内基梅隆大学何俊贤最终胜出,成为本届百度奖学金的获得者。原文连接

    科技早报
    分享到

5月12

  • 清华「计图」现在支持国产芯片了!动态图推理比 PyTorch 快了 270 倍

    10:05 作者:xiaoxingxing

    清华自研的深度学习框架计图(Jittor)在动态图推理速度上又一次完胜PyTorch。 最近,计图团队完成了在寒武纪芯片MLU270上的移植。 这一次跟寒武纪的合作,使Jittor在backbone网络模型中的动态图推理速度较PyTorch平均提升了276.69倍。 从团队公布的实验结果可以看到,在寒武纪芯片上分别用计图(Jittor)和PyTorch进行推理。 计图(Jittor)在16种backbone网络模型中的推理速度都较PyTorch大幅提升,其中包括alexnet、vgg系列、resnet系列。 其中最快的是alexnet,提升速度达到了464.43倍,最慢的resnet50也达到了153倍。 平均提升速度达276.69倍。原文连接

    清华「计图」现在支持国产芯片了!动态图推理比 PyTorch 快了 270 倍

    科技早报
    分享到

5月07

  • 5月7日互联网科技早报

    10:04 作者:xiaoxingxing

    国内要闻 1、小米集团:第一季度欧洲智能手机市场份额小米超过苹果,首次达到第二 2、OPPO K9超次元发布会:K9手机、OPPO智能电视K9、OPPO Enco Air和OPPO手环活力版四款新品重磅发布 3、哈啰出行更新招股书:一季度营收14.15亿元同比增104%,总交易额达34.51亿元 4、街电、搜电完成合并,两大品牌母公司定名“竹芒科技” 5、神州数码:拟出售迪信通19.62%股权,合计价格为5.52亿港元 6、青云科技携手安恒信息,为企业提供一站式等保方案 7、出海公司“赤子城科技”与字节跳动旗下流量平台达成全线合作 8、深康佳A与深圳电子协会签署合作框架协议,将在电子信息产业及资本上开展合作 9、君正集团:子公司拟207亿元投资建设绿色环保可降解塑料循环产业一期项目 10、首届中国国际消费品博览会开幕,吸引2628个国内外品牌参展 政务快讯 1、国家邮政局:“五一”假期全国揽投快递包裹近26亿件 2、住建部、工信部:确定北京、上海、广州等6个城市为智慧城市基础设施与智能网联汽车协同发展第一批试点城市 3、深圳:加快国际海洋开发银行、大湾区债券平台等重大平台建设 4、广州拟设大湾区轨道交通产投集团,注册资本50亿元 5、上海今年重点打造11项数字生活标杆应用,力争建设有感受度和体验度的数字生活场景 科技通信 1、中国联通携手华为完成首个5G规模商用网络VoNR验证,5G语音体验再升级 2、漳州电信携手华为完成省内首个5G室内分布式Massive MIMO创新试点 3、年产33万片,华芯晶元第三代半导体项目落户青岛高新区 4、鸿海携手国巨合资设立国瀚半导体(XSemi)公司,进军半导体相关产品开发与销售领域 5、Counterpoint:2020年全球TWS真无线蓝牙耳机市场,苹果以31%份额排名第一 文娱影游 1、TikTok宣布加入Technology Coalition技术联盟,推动儿童权益保护 2、B站:将全程直播英雄联盟“季中冠军赛”,并上线直播平台独家第二直播间 3、朝夕光年与中手游联合出品《航海王热血航线》获App Store四月最佳游戏 4、抖音:五一假期出游视频量相比今年春节增加2.4倍,相比去年五一增加5.9倍 5、大麦:“五一”期间Livehouse、脱口秀、音乐节票房与2019年同期相比增幅较均超250% 金融财经 1、中国银联:2021年“五一”假期银联网络交易金额1.91万亿元,创历年同期最高 2、粤港澳大湾区“跨境理财通”细则出炉:总额度1500亿元,单个投资者额度100万元 3、上交所首批正式受理基础设施公募REITs项目已达6单 4、国开行将支持一批生态环境导向开发模式项目,拟贷款约706亿元 5、神州信息:公司自研发布数字钱包系统,目前已在建设银行、广发银行、北京银行实现落地 住房地产 1、万达集团:五一黄金周全国万达广场销售额111亿元,客流达1.4亿人次 2、奥园健康与奥园城市更新集团签约,将围绕旧改项目合作 3、越秀地产与仁恒置地签订协议,拟扩大长三角、粤港澳多领域合作 4、浙江广厦总经理张霞辞职,常务副总赵云池代行职权 5、太古地产:一季度内地零售项目销售额多数增长超100% 零售电商 1、江苏省国资、南京市国资与苏宁组建新零售发展基金,总规模200亿元 2、苏宁易购:5月1日至5日线下门店客流同比增长212% 3、菜鸟驿站发布5.1包裹报告:1500万用户免费保管包裹超3天 4、便利蜂:五一假期服务人次创历史新高,“Z世代”是消费主力 5、Supreme意大利首店5月6日开业,全球门店增至13家 汽车出行 1、蔚来发布挪威战略,宣布正式进入挪威市场 2、何小鹏:小鹏深圳研发中心正式开张,一年内研发人员数或扩张到500以上 3、特斯拉:正开发车主数据平台,将向车主共享数据 4、杨嵩调任福特品牌乘用车事业部副总经理,陆逸出任全国销售服务机构总裁 5、2021年一季度全球新能源汽车排行榜:特斯拉Model 3夺冠,五菱宏光MINIEV第二 教育培训 1、豌豆思维、魔力耳朵大连中心正式成立,加速全球化战略布局 2、字节跳动关联公司成学小易最大股东,后者为大学生搜题平台 3、苹果授牌四川蒙顶山合作社发展培训学院“智惠教室” 4、天津市消协发布《K12在线教育服务与评价》,网易有道等5家机构参与制定 5、教育部:中小学音乐、美术课程已达总课时9%,美育教师五年增加17.9万人 医疗健康 1、金地集团出资1亿元参与认购私募基金份额,投资中国医疗健康行业 2、启明医疗投资创新医疗器械公司德晋医疗,强化二尖瓣布局 3、一品红参与阿尔法科技首轮融资,布局AI创新药物发现赛道 4、开立医疗:超声电子上消化道内窥镜(凸阵)获欧盟CE认证 5、淄博:签约“正大光明医疗救助基金”,定向帮助低收入眼疾患者 旅游民宿 1、“五一”假期海南离岛免税购物金额9.93亿元,购物人次12.1万人次,购物件数134.5万件 2、木鸟民宿发布五一民宿数据,预订为2019年同期2.5倍 3、小红书发布五一旅游出行报告,长沙成最受欢迎目的地 4、济南融创文旅城计划5月29日开业,建筑面积535万平方米 5、希尔顿CEO:商务旅行已恢复到疫情前水平50%,中国市场达75% 区块链 1、蚂蚁链与奇瑞商用车战略合作,推进区块链技术在新能源汽车领域的应用“车链通” 2、邮储银行大连分行正在发力打造数字人民币试点示范村 3、币安NFT市场宣布与足球明星Alphonso Davies合作推出独家NFT系列 4、UniArts Network为上海文创IP产业中心提供NFT技术支持 5、诺基亚推出基于区块链的诺基亚数据市场,可提供信息交易和分析功能 国际视角 1、IBM宣布推出全球首个2纳米芯片制造技术,比主流7纳米芯片快45% 2、贝索斯出售25亿美元亚马逊股票,今年首次大规模套现 3、任天堂2021财年净利润44亿美元,同比猛增86% 4、蓝色起源:计划7月20日提供亚轨道观光旅行服务 5、拉美跨境支付平台Dlocal递交美国IPO申请,估值将达到50亿美元 融资收购 1、自热方便火锅品牌「自嗨锅」完成逾亿元C++轮融资,由北京泰康投资独家投资 2、零食连锁品牌「零食很忙」完成2.4亿元A轮融资,由红杉中国与高榕资本联合领投,启承资本与明越资本跟投,明越资本担任独家财务顾问 3、生鲜冻品数字化供应链服务平台「飞熊领鲜」完成近亿元A轮融资,由深圳同创伟业、青岛财富中心、源嘉控股联合投资 4、健康生活方式品牌「超级猩猩」完成数亿元E轮融资,由中金资本旗下基金领投,中金公司担任独家财务顾问 5、售后服务管理SaaS公司「瑞云服务云」完成数千万元Pre-A轮融资,由蓝湖资本独家领投 6、跨境金融科技平台「驼驼数科」完成数千万元首轮融资,投资方为星瀚资本 7、企业级零代码应用搭建平台「伙伴云」完成1700万美元B轮融资,由五源资本、红杉中国共同领投,挑战者资本跟投 8、低代码平台服务提供商「百特云享」完成数千万元Pre-A轮融资,投资方为常春藤资本 9、创新药品研发商「和其瑞医药」完成5600万美元B轮融资,由启明创投、远翼投资共同领投,弘晖资本与创新工场跟投,老股东挚信资本持续加持,浩悦资本担任独家财务顾问 10、精准医学检测技术研发商「亿康基因」完成2.5亿元D轮融资,由通用创投、云锋基金、国药资本、元禾控股、锦鳞基金等参与投资,现有股东中金启德基金继续追加 11、微创二尖瓣修复介入器械研发商「德晋医疗」完成数亿美元B轮融资,由德弘资本和红杉中国领投,启明医疗、清池资本、国寿大健康基金、济时资本等跟投,老股东启明创投持续加注 12、医药中间体研究开发商「瑞一科技」完成数千万元战略定增融资,由怀格资本领投,弘博资本跟投 13、创新止血材料研发商「德威兰」完成近亿元B轮融资,由青岛水木紫荆、青岛水木紫藤、海南金慧丰等联合领投 14、创新生物技术公司「凡恩世」完成4000万美元B轮融资,由红杉资本中国基金领投,德屹资本、火山石投资、康禧全球投资基金、文周基金跟投,老股东险峰旗云和天使投资人追加投资 15、生物技术公司「BridGene Biosciences」完成1200万美元A轮融资,由苇渡资本领投,现有股东磐谷创投继续加持,凯泰资本、武田资本跟投

    科技早报
    分享到

5月06

  • 谷歌提出MLP-Mixer:一种纯MLP构成的视觉架构

    14:14 作者:xiaoxingxing

    本文是谷歌大脑的研究员(原ViT团队)在网络架构设计方面挖的新坑:MLP-Mixer。无需卷积、注意力机制,MLP-Mixer仅需MLP即可达到与CNN、Transformer相媲美的性能。比如,在JFT-300M数据集预训练+ImageNet微调后,所提Mixer-H/14取得87.94%的top1精度。尽管所提方法性能并未达到最优,但本文的目的并不在于达成SOTA结果,而在于表明:简简单单的MLP模型即可取得与当前最佳CNN、注意力模型相当的性能。原文连接

    最热论文
    分享到

4月27

  • PyTorch官方培训教程上线

    18:58 作者:xiaoxingxing

    PyTorch官方推出了培训教程 官方链接:https://www.youtube.com/channel/UCWXI5YeOsh03QvJ59PMaXFw/videos 哔哩哔哩机翻版:https://www.bilibili.com/video/BV1qh411U73y?p=1 官方中文版教程:https://pytorch.apachecn.org/原文连接

    PyTorch官方培训教程上线

    Pytorch
    分享到

个人中心
购物车
优惠劵
今日签到
搜索