<?xml version="1.0" encoding="utf-8"?>
<feed xmlns="http://www.w3.org/2005/Atom">
  <title>Tianke Youke</title>
  
  <subtitle>A sanctuary for secreting and rushing at night.</subtitle>
  <link href="https://jyzhu.top/blog/atom.xml" rel="self"/>
  
  <link href="https://jyzhu.top/blog/"/>
  <updated>2026-05-03T13:06:46.614Z</updated>
  <id>https://jyzhu.top/blog/</id>
  
  <author>
    <name>Jiayin Zhu</name>
    
  </author>
  
  <generator uri="https://hexo.io/">Hexo</generator>
  
  <entry>
    <title>byebye</title>
    <link href="https://jyzhu.top/blog/byebye/"/>
    <id>https://jyzhu.top/blog/byebye/</id>
    <published>2026-04-26T15:28:58.000Z</published>
    <updated>2026-05-03T13:06:46.614Z</updated>
    
    <content type="html"><![CDATA[<p>我以前一次也没勇气好好地告别。生活的场所，人生的阶段，珍贵的人，当我感受到那份重量，我就悄悄离开，不敢回头整理。我说这是随遇而安，说我记忆力不好，过去的事忘得很快。我现在意识到这也是情感隔离，是我没能量承载那份重量。更重要的是我现在有所成长，惊喜地发现对正在经历的告别有感受了。我将好好跟告别相处，跟最后的phd阶段、新加坡、遇见过的人，在快要告别的时间里相处，在相处中体会告别。我也会直面珍惜的、遗憾的种种情感，这样才是真正长出勇气面对未知的未来。我过去真傻，居然不知道脚踩的就是地上。</p>]]></content>
    
    
      
      
    <summary type="html">&lt;p&gt;我以前一次也没勇气好好地告别。生活的场所，人生的阶段，珍贵的人，当我感受到那份重量，我就悄悄离开，不敢回头整理。我说这是随遇而安，说我记忆力不好，过去的事忘得很快。我现在意识到这也是情感隔离，是我没能量承载那份重量。更重要的是我现在有所成长，惊喜地发现对正在经历的告别有感受</summary>
      
    
    
    
    <category term="thoughts" scheme="https://jyzhu.top/blog/categories/thoughts/"/>
    
    
  </entry>
  
  <entry>
    <title>new 2026</title>
    <link href="https://jyzhu.top/blog/new-2026/"/>
    <id>https://jyzhu.top/blog/new-2026/</id>
    <published>2026-01-07T06:41:27.000Z</published>
    <updated>2026-05-03T13:06:46.374Z</updated>
    
    <content type="html"><![CDATA[<p>常年地路过这个路口，这是第五个年头。皮肤已经衰老一个阶段了，路口还是没怎么变。发现路口这家越南餐馆快要一年。菜单上的种类繁多，在这里吃过的不多，但能认识个七七八八，已经是我在东南亚沉淀好些年的证明。隔壁那家椰浆饭，我第一天来吃的时候，还以为是一种印度烧烤。现在我已经知道碗里这种叫Maggie的很好吃的印尼干拌面，习惯喝齁甜的越南街头咖啡。我还去越南喝过真的街头蛋咖啡。</p><p>这是2026年的第七天。从卡尔维诺书里读到人的完整性之后，我一直在努力拼出自己。我打算赋予2026我的心理完整之年的意义。我曾经建得那么顽固的一座堡垒，让我以为我已经坚不可摧，没想到才二十来岁，又在重新施工了。</p><p>智力上的努力也前所未有地施展中。到处产生进展，这里碰壁那里碰壁地好像也就杀不死。这可能是我目前意义感比较充足的原因。但是我也会担心，下一个阶段我准备好了吗？会有攀爬不动，差不多停在半山腰的时候，歇下来我会不会感到失去意义？会不会对存在感到焦虑？如何解？难道只能不断用我在成长来麻痹自己？追求进步说到底只是一种麻醉剂。</p><p>如何感到满足？何时才算完整？很多问题啊。</p>]]></content>
    
    
      
      
    <summary type="html">&lt;p&gt;常年地路过这个路口，这是第五个年头。皮肤已经衰老一个阶段了，路口还是没怎么变。发现路口这家越南餐馆快要一年。菜单上的种类繁多，在这里吃过的不多，但能认识个七七八八，已经是我在东南亚沉淀好些年的证明。隔壁那家椰浆饭，我第一天来吃的时候，还以为是一种印度烧烤。现在我已经知道碗里</summary>
      
    
    
    
    <category term="thoughts" scheme="https://jyzhu.top/blog/categories/thoughts/"/>
    
    
  </entry>
  
  <entry>
    <title>typical day in 2025 sg</title>
    <link href="https://jyzhu.top/blog/typical-day-in-2025-sg/"/>
    <id>https://jyzhu.top/blog/typical-day-in-2025-sg/</id>
    <published>2025-11-30T11:18:02.000Z</published>
    <updated>2026-05-03T13:06:46.488Z</updated>
    
    <content type="html"><![CDATA[<p>25年11月30号，我带着困意下楼。痛经的整整两天半让我蜗居在家里，堆积的外卖垃圾忘记带下楼，到时候还得多走一趟。</p><p>我带着一本阿莱夫，坐在离我住的这栋楼最近的长椅上看。傍晚光线逐渐昏暗，我又是头昏脑胀，很难看得进去。今天是周日，本来属于休息日，但因为暗无天日的研究进展，我无法好好休息，又不甘心工作。</p><p>很多种虫子路过我的皮肤。我面前是那个一高一低的单杠。有个印度人如火如荼地围着单杠锻炼，我如今对锻炼身体的人感到亲近，选了就近的这个长椅。</p><p>有个华人骑着自行车在这里停下，趁印度人在旁边伸展的空档迅速地在高杠上做了大概四个标准的引体向上。然后他在旁边休整了大概一分钟，又在低杠上做了四个，然后立刻骑着自行车扬长而去。我看了他们两人的肌肉都不算大块头，但已经是全身都很完满的健身痕迹。我想我坐在这里其实也是想用那个单杠的，只是我认为它已经是被印度人占用的状态，无法做到在距离他不到两米的地方进行滑稽的挂杠动作。</p><p>有时候我感到有一种记录的必要性。不记的话，这样一个平常的日子就会飞快地从我的大脑里滑走。记的话，今后它将会是一个很典型的记忆锚点：我的读博生涯，二十多岁的后半段，百无聊赖的周日傍晚，二零二几年的典型新加坡平凡生活景象。</p><p>可能我也是给以上几个意象赋予了太多本来没有的意义，以至于竟觉得日子每天都那么过去让我可惜；也有可能是我过度麻痹和逃避抓不住的时间，连日子的重要性也不愿直面。</p><p>一家三口又来这对单杠上试了试玩了玩，现在已经散着步走了。</p>]]></content>
    
    
      
      
    <summary type="html">&lt;p&gt;25年11月30号，我带着困意下楼。痛经的整整两天半让我蜗居在家里，堆积的外卖垃圾忘记带下楼，到时候还得多走一趟。&lt;/p&gt;
&lt;p&gt;我带着一本阿莱夫，坐在离我住的这栋楼最近的长椅上看。傍晚光线逐渐昏暗，我又是头昏脑胀，很难看得进去。今天是周日，本来属于休息日，但因为暗无天日的</summary>
      
    
    
    
    <category term="thoughts" scheme="https://jyzhu.top/blog/categories/thoughts/"/>
    
    
  </entry>
  
  <entry>
    <title>博学幻觉</title>
    <link href="https://jyzhu.top/blog/%E5%8D%9A%E5%AD%A6%E5%B9%BB%E8%A7%89/"/>
    <id>https://jyzhu.top/blog/%E5%8D%9A%E5%AD%A6%E5%B9%BB%E8%A7%89/</id>
    <published>2025-11-24T09:31:22.000Z</published>
    <updated>2026-05-03T13:06:46.246Z</updated>
    
    <content type="html"><![CDATA[<p>读博学到的一个道理是，我曾经的博学幻觉是该破除了。不同的领域有很多有多的知识，浅表性地学习很多各方各面的知识，收集一些信息，有用吗？以为有用，实际上除了满足收集癖，现实里是没用的。做成每一件事情都太需要实打实投入的时间和精力了，全面接壤，形成许许多多的experience，那不是从旁观的角度能学习到的东西。空想实在是太容易了，实践的体验实在是太不一样了。读博发论文，听起来一回事，做起来另一回事。每一篇工作，想起来一回事，做出来另一回事。有时候退行回旧的全能感的时候，会想着不就是一篇论文嘛，完全知道怎么搞了，看我三两下搞出来。实际上做起来，时间就像海绵里的水，一下就被吸干了。现代社会要做成的成年人的系统的事情，没有一件不是这种复杂程度的。我现在已经不再信听来的经验，不再信自己体验两个月的经验，实际上初体验、两个月、两年、五年，每个阶段的经验和感受都是完完全全的不同。此时时间的宝贵性又体现出来，不要再把苹果分放在几十个篮子里了，放在重要的篮子里吧，总共就那么几十年。</p><p>我对“朝闻道夕死可矣”的理解曾经竟然有一种本质的偏差。我对宇宙终极问题及答案的渴求是对世界的复杂性的终极轻视。时间竟然是道路上如此重要的一环。</p>]]></content>
    
    
      
      
    <summary type="html">&lt;p&gt;读博学到的一个道理是，我曾经的博学幻觉是该破除了。不同的领域有很多有多的知识，浅表性地学习很多各方各面的知识，收集一些信息，有用吗？以为有用，实际上除了满足收集癖，现实里是没用的。做成每一件事情都太需要实打实投入的时间和精力了，全面接壤，形成许许多多的experience，</summary>
      
    
    
    
    <category term="thoughts" scheme="https://jyzhu.top/blog/categories/thoughts/"/>
    
    
  </entry>
  
  <entry>
    <title>拥挤</title>
    <link href="https://jyzhu.top/blog/%E6%8B%A5%E6%8C%A4/"/>
    <id>https://jyzhu.top/blog/%E6%8B%A5%E6%8C%A4/</id>
    <published>2025-08-09T18:49:10.000Z</published>
    <updated>2026-05-03T13:06:46.742Z</updated>
    
    <content type="html"><![CDATA[<p>也许世界已经</p><p>缺少连线</p><p>充满符号 我也拥挤不堪</p><p>不再有琢磨文字的空间</p>]]></content>
    
    
      
      
    <summary type="html">&lt;p&gt;也许世界已经&lt;/p&gt;
&lt;p&gt;缺少连线&lt;/p&gt;
&lt;p&gt;充满符号 我也拥挤不堪&lt;/p&gt;
&lt;p&gt;不再有琢磨文字的空间&lt;/p&gt;
</summary>
      
    
    
    
    <category term="poems" scheme="https://jyzhu.top/blog/categories/poems/"/>
    
    
  </entry>
  
  <entry>
    <title>南洋</title>
    <link href="https://jyzhu.top/blog/%E5%8D%97%E6%B4%8B/"/>
    <id>https://jyzhu.top/blog/%E5%8D%97%E6%B4%8B/</id>
    <published>2025-06-16T06:08:53.000Z</published>
    <updated>2026-05-11T05:56:35.590Z</updated>
    
    <content type="html"><![CDATA[<p>南洋文化，和众多世界文化类别并列出现的时候，我感到一震。彼时多么陌生、不太留意的词，现在居然全都鲜活地存在我的脑子里。和那些从书里读到的德国文化、日本文化不一样，那些我视作瑰宝，仔细咀嚼、体悟过。南洋文化我真没太留意过——但居然是一整个潜在里面被泡透了，那些词不是被我咀嚼的关系，是把我泡透的关系！我没数过，居然有那么多以前觉得陌生的词，存在我的词库里，什么椰风蕉雨，什么叻沙，什么马来熊，煎蕊，马六甲海峡，柔佛古庙……这些和日本的侘寂、俄国的沉默巨构比，带给我的冲击力完全不同预期。我曾经多么傲慢和无知，难道要等远行了再后知后觉神秘的南洋早已对我眷顾吗？我需要主动拥抱和了解它，它已经在我生命里写下。 25.6.16</p><hr /><ul><li><p>新加坡的grab司机说，他女儿和我一样大，但成绩不好，没有读本科。现在在Spain工作，之前在Germany，有政府的支持和补贴。为了晋升，在老板的鼓励下，现在准备提升学历，在两个设计相关的专业之间纠结。她的设计能力还帮助她在网上搞副业，开网店，比正职赚得还多。司机大叔今年六十了，准备用在泰国的堂弟弟的名字在清迈买套房，搬过去养老。他说新加坡年轻人的生活太苦了，毕业了要攒好几年钱才能买房。我只能默默听，没法给什么合适的回应。我试着跟他说中国人奋斗一辈子也不一定能在大城市留下，他说你们多好回老家就可以自在生活。我们大概互相都缺乏想象又充满想象。 25.5.31</p></li><li><p>新加坡有无尽的夏天，源于地球不管怎么转，太阳都直射这里。在这里读博，我也需要有源源不断的脑汁，每天在大暴雨和大太阳底下枯坐，指挥远处冷气房里的服务器轰隆隆跑实验。这样一种奇怪的状态成了我的生活，不明不白地挥霍我体内的维生素D，令我每天困顿顿昏沉沉。 25.5.5</p></li><li><p>新加坡。我已从好几个不同视角看过它。飞机上看到海上连成片的岛，最末端灯最亮的那一个。从民丹岛回来的船上，看到逐渐靠近的岸。在新山，隔着窄窄一湾，由一座跨国大桥联通，彼岸密密麻麻都是高楼。还有地图上，马六甲海峡尾端，北纬1.6°，不放大看基本在赤道上。</p><p>综合起来，它的形象似乎坍缩成一座漂在海上，适量承载些热带乌云和暴雨的，可感知的小岛。小岛的概念是像巴厘岛，坐车从弯弯绕绕的山间小路钻出，豁然开朗地驶上一条沿着海岸线的公路，让你一趟就能明白整个东海岸的走向。在新加坡我住在西海岸，也一样的可感知。</p><p>我出生在中国最中间的地方，一条算不上什么的山脉。海和岛是原本以为生命中最陌生的名词。如今想起来时不时还有恍如隔世的感觉。当然，中国虽然面积上大太多，但它对我来说早已是可感知的。可见也不是新加坡这座岛真的有多小，而是人生的最新三年，来到了太多原以为生命中最遥远的地方，导致对「世界」方才有了可感知的感觉。</p><p>「眼界」的意思大概就是对世界的可感知范围。也没什么额外的用处，或许能让我更清晰地感知到自己在世界上所处的位置。所以其实等同于对自己所处位置的感知准确度。极大概率去不了外太空，没办法进一步具体感知自己更大尺度上的位置了，遗憾。但是也该举一反三，多想象一下了。</p></li></ul><p>​ 2024.7.7</p>]]></content>
    
    
      
      
    <summary type="html">&lt;p&gt;南洋文化，和众多世界文化类别并列出现的时候，我感到一震。彼时多么陌生、不太留意的词，现在居然全都鲜活地存在我的脑子里。和那些从书里读到的德国文化、日本文化不一样，那些我视作瑰宝，仔细咀嚼、体悟过。南洋文化我真没太留意过——但居然是一整个潜在里面被泡透了，那些词不是被我咀嚼的</summary>
      
    
    
    
    <category term="thoughts" scheme="https://jyzhu.top/blog/categories/thoughts/"/>
    
    
    <category term="南洋" scheme="https://jyzhu.top/blog/tags/%E5%8D%97%E6%B4%8B/"/>
    
  </entry>
  
  <entry>
    <title>萨特《恶心》读后感</title>
    <link href="https://jyzhu.top/blog/%E8%90%A8%E7%89%B9%E3%80%8A%E6%81%B6%E5%BF%83%E3%80%8B%E8%AF%BB%E5%90%8E%E6%84%9F/"/>
    <id>https://jyzhu.top/blog/%E8%90%A8%E7%89%B9%E3%80%8A%E6%81%B6%E5%BF%83%E3%80%8B%E8%AF%BB%E5%90%8E%E6%84%9F/</id>
    <published>2025-03-29T14:13:20.000Z</published>
    <updated>2025-07-21T18:14:54.494Z</updated>
    
    <content type="html"><![CDATA[<p>另外那种痛苦：傲慢的、小小的、有节奏的，以为怀着冷漠的纯洁，可以和美有关系。但是存在的痛苦不是这个东西。</p><p>存在丑陋，又无拘无束；存在的痛苦沉甸甸的，又像海象一样肉多皮厚。我滞留在这样的存在里，痛苦地感受世界的丑陋，树干的丑陋，海水的丑陋，砖块的丑陋；可是我触不到存在，这更痛苦，我只是多余的人。</p><p>每次坐在飞机上我就读《恶心》，读起来感到飞机的轻盈，无拘无束，飞机上的我也一样。平稳地飞行和降落并不是在预期之内，遭遇事故也不是在意料之外；这两者都是同等地可怕，同等地让人意外。我不怕飞机失事坠毁，我会摔成烂泥；同等地，我不怕它还会落地，我会在另一片土地上站立、停留。</p><p>我被困在现在这堵四面高墙里。可是再过一小会儿，现在又会变成过去，变成一种朦胧的、混乱的梦境，它消失了。这种存在的恶心，我大概已经透过书和我的生活了解透彻了。但是破解法，我一直在寻找。最后几页为什么如此仓促地收束？听到乐曲，想象了作曲者本人，于是主人公感到这是解法：创作，让创作在日后留下一些微光，让别人通过你的创作想念你，这样你就剥离了存在的恶心的那部分，留下了真正美丽的、超越的那点东西。这样，就至少可以接受自己的存在—过去时，仅仅是过去时。我不是很理解，没能感到有超越存在的那部分东西。</p>]]></content>
    
    
      
      
    <summary type="html">&lt;p&gt;另外那种痛苦：傲慢的、小小的、有节奏的，以为怀着冷漠的纯洁，可以和美有关系。但是存在的痛苦不是这个东西。&lt;/p&gt;
&lt;p&gt;存在丑陋，又无拘无束；存在的痛苦沉甸甸的，又像海象一样肉多皮厚。我滞留在这样的存在里，痛苦地感受世界的丑陋，树干的丑陋，海水的丑陋，砖块的丑陋；可是我触不</summary>
      
    
    
    
    <category term="thoughts" scheme="https://jyzhu.top/blog/categories/thoughts/"/>
    
    
    <category term="文学" scheme="https://jyzhu.top/blog/tags/%E6%96%87%E5%AD%A6/"/>
    
    <category term="书评" scheme="https://jyzhu.top/blog/tags/%E4%B9%A6%E8%AF%84/"/>
    
  </entry>
  
  <entry>
    <title>ad-hoc me</title>
    <link href="https://jyzhu.top/blog/ad-hoc-me/"/>
    <id>https://jyzhu.top/blog/ad-hoc-me/</id>
    <published>2025-03-09T04:26:28.000Z</published>
    <updated>2025-03-11T18:47:34.963Z</updated>
    
    <content type="html"><![CDATA[<p>连着两天读起了书，好像一些文学的感受回来了。想着来记点啥或者写点啥。</p><p>翻出了Mac上旧的学文笔记，重读发现我以前的文风意外地造作。明明自己内心里是从来没有造作的本意的，一路上都是喜欢沈从文、汪曾祺、海明威那种冷峻的文风来着。本意也是以真诚为主，但是发现原来我还挺喜欢背人名、写title、掉书袋的。有点羞耻。 也有可能是民国文学读多了，写的词语不太现代吧。 现在想拽那种风格倒是写不出来了，还嫌自己有点过于口语化，也是和过去的自己悲喜不相通了。</p><p>再读当时对废名的诗的笔记，一下子就顺畅理解他是个啥意思了。当时为什么理解得那么粗浅？简而言之，废名认为诗的内容应该区别于散文的内容，不应该以承载作者情感为目的，而应该作为独立的、完整的存在，描述一个独立的故事，纯粹从想象力出发的东西，而不是折射、隐喻现实。我仍然喜欢这一类诗，但是好像也不觉得这是诗的唯一定义了。人家策兰的黑牛奶当然是写现实的，但是带给我的震撼不比别的少，难道那就不是诗吗？我想我比较认可诗应该是一种对文字的极致的探索，至于内容，只要是自由的、个体的，都行。</p><figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br></pre></td><td class="code"><pre><span class="line">文学的火花在我体内溅射的时候</span><br><span class="line">我欢腾</span><br><span class="line">我想</span><br><span class="line">我是一个临时的人</span><br><span class="line">ad-hoc</span><br><span class="line">——我自己，抒情诗</span><br></pre></td></tr></table></figure><p>今天从《恶心》里读到，安妮觉得男主角和她对存在的觉察是很不一样的。男主对周围静止的事物要求很高，希望他们别来打扰他。但是安妮是从行动的角度出发的，她想看自己怎么做才能符合心意。</p><p>其实我一开始完全不认可她。我从男主的视角一路追踪过来，觉得对周围的事物的存在发起质疑，这很对呀。好像自己只需要去观察、审视，只需要想，不需要做什么。我甚至觉得男主做出去巴黎找安妮的选择，并在路上产生强烈的奇遇感，都有点多余了。一直以来我都希望自己是一颗随风摇摆的树，站在那，从土里吸水，这些都不是我的选择，只是自然地发生。</p><p>不过读到那里的时候，微信读书里其他人的发言似乎在点我。他们都说男主不作出行动不好，真正的行动派才是勇敢的。这个道理我好像也懂，但我怎么从来没有反思过？原来我一直想做一棵树的愿望都是一种懒惰的退避，并非真正的自由？我回忆到我前两天发现的自己对《齐马蓝》的误解，好像也是一致的：我以为齐马蓝作为艺术家看到了全部，做到了全部，最后选择退避一切，回到蓝色泳池里打扫瓷砖，是跟我当树一样的终极又简单的目标，用无为来顺其自然。但是好像人家的本意是发现打扫瓷砖的时候只用专注于眼前下一件要做的事情，抛去一切杂念，从中获得纯粹的快乐。我以为是不做事、纯无视呢，原来人家是专注手头事啊，这本质好像不太一样。</p><p>当然对存在和虚无的觉察还是同样本质的，只是在选择上，我似乎不应该如此被动和不负责任，为什么不主动地搅动浑水呢？就好像不要再在这里空想，寻觅我对活着的终极定义了，我应该去做，办我手头临时的事去。</p><blockquote><p>反者道之动。 无为无不为。</p></blockquote>]]></content>
    
    
      
      
    <summary type="html">&lt;p&gt;连着两天读起了书，好像一些文学的感受回来了。想着来记点啥或者写点啥。&lt;/p&gt;
&lt;p&gt;翻出了Mac上旧的学文笔记，重读发现我以前的文风意外地造作。明明自己内心里是从来没有造作的本意的，一路上都是喜欢沈从文、汪曾祺、海明威那种冷峻的文风来着。本意也是以真诚为主，但是发现原来我还</summary>
      
    
    
    
    <category term="thoughts" scheme="https://jyzhu.top/blog/categories/thoughts/"/>
    
    
  </entry>
  
  <entry>
    <title>Reading LucidDreamer -- Towards High-Fidelity Text-to-3D Generation via Interval Score Matching</title>
    <link href="https://jyzhu.top/blog/Reading-LucidDreamer-Towards-High-Fidelity-Text-to-3D-Generation-via-Interval-Score-Matching/"/>
    <id>https://jyzhu.top/blog/Reading-LucidDreamer-Towards-High-Fidelity-Text-to-3D-Generation-via-Interval-Score-Matching/</id>
    <published>2024-08-01T09:22:02.000Z</published>
    <updated>2025-03-11T18:25:46.970Z</updated>
    
    <content type="html"><![CDATA[<p>论文地址： <a href="https://arxiv.org/abs/2311.11284" class="uri">https://arxiv.org/abs/2311.11284</a></p><p>作者：<a href="https://yixunliang.github.io/">Yixun Liang</a> <a href="https://abnervictor.github.io/2023/06/12/Academic-Self-Intro.html">Xin Yang</a>, <a href="https://ltt-o.github.io/">Jiantao Lin</a>, <a href="https://haodong-li.com/">Haodong Li</a>, <a href="https://xiaogang00.github.io/">Xiaogang Xu</a>, <a href="https://www.yingcong.me/">Yingcong Chen</a></p><p>发表： CVPR 2024 Highlight</p><p>Code：<a href="https://github.com/EnVision-Research/LucidDreamer" class="uri">https://github.com/EnVision-Research/LucidDreamer</a></p><hr /><blockquote><p>如果你去做这个任务，会怎么做？作者做的方法和你想的有什么差异？</p></blockquote><ul><li>解决SDS的oversmooth的问题。其实我之前探索过这个问题，是从SDS的公式分解出发的，发现跟non-increasing timestep sampling结合，在不同的时间步应用不同的SDS子项，能解决一定的问题。但是仍然只是mitigate，不是solve，我觉得这种 从多次2D生成结果中收敛出一个3D结果 的方式，免不了被平均，得到smooth后的结果，似乎是SDS的内在缺陷🤔除非改进成非optimize的方法；那不就换成了feed forward的思路了嘛</li></ul><h2 id="why">Why：</h2><ul><li>从2D diffusion model发展以来，基于SDS的方法可以把2D生成结果lift到3D，从而实现text-to-3D generation。这种生成结果富有想象力，而且只需要文本描述这种直观的输入，这类方法得到迅速的发展和关注。</li><li>但是基于SDS的方法有普遍的问题，那就是over-smoothing，过平滑。</li><li>这篇文章揭示了SDS背后的机制：把3D模型渲染的图像跟2D的伪ground truth相匹配，这种伪ground truth就是diffusion model的生成结果。问题在于，生成的伪GT通常是<strong>不一致</strong>的，而且有<strong>低质量</strong>。然而所有的这些伪GT所提供的更新方向全都提供给3D模型，就会让最终结果受到一个平均效应的影响，趋向于过平滑以及缺乏细节。</li><li>这篇文章还分析了伪GT效果不好的两个原因：<ol type="1"><li>伪GT是diffusion model的一步重建结果，有很高的重建误差</li><li>diffusion 路径的内在随机性让这些伪GT在语义上不同，这会导致平均效应，以及最终的的过平滑结果</li></ol></li></ul><h2 id="what">What：</h2><ul><li>为了解决上述问题，这篇文章提出中间分数匹配，Interval Score Matching（ISM），从两个有效的机制上提高了SDS的效果：<ol type="1"><li>通过应用DDIM inversion，ISM提供了一个可逆转的diffusion路径，减轻了平均效应</li><li>不同于让3D模型渲染的2D图像直接跟伪GT相匹配，ISM是让diffusion路径中的两个中间步相匹配，这样就能避免有高误差的一步重建带来的影响</li></ol></li><li>ISM相比SDS，稳定地实现了更高的真实性和更多的细节。</li><li>此外，ISM还跟3D Gaussian Splatting适配，新的3D生成模型实现了超过sota的效果。之前的sota需要多步训练，但本文只需要一步</li></ul><p>读前疑问：</p><ol type="1"><li>DDIM inversion跟SDS有啥关系，在这发挥了什么作用？SDS 可以看作一种高variance的DDIM，或者说ODE，用DDIM inversion来解决random noise引入的随机方差的问题。这个思路后来已经在很多篇论文里体现了，刷新对SDS的理解……</li><li>ISM跟diffusion的中间步的结果有关，而不再是最终重建好的图片，是这个意思吧？但是怎么做到的呢，是纯公式上的变化，还是整个机制流程会改变呢？公式上的</li><li>跟timesteps有关系吗，有没有考虑不同timesteps guidance的区别？没。</li></ol><h2 id="how">How：</h2><p>好多公式，直接写本本上了……</p>]]></content>
    
    
      
      
    <summary type="html">&lt;p&gt;论文地址： &lt;a href=&quot;https://arxiv.org/abs/2311.11284&quot; class=&quot;uri&quot;&gt;https://arxiv.org/abs/2311.11284&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;作者：&lt;a href=&quot;https://yixunliang.g</summary>
      
    
    
    
    <category term="Computer Notes" scheme="https://jyzhu.top/blog/categories/Computer-Notes/"/>
    
    
    <category term="SDS" scheme="https://jyzhu.top/blog/tags/SDS/"/>
    
    <category term="text-to-3D" scheme="https://jyzhu.top/blog/tags/text-to-3D/"/>
    
    <category term="3D generation" scheme="https://jyzhu.top/blog/tags/3D-generation/"/>
    
    <category term="diffusion model" scheme="https://jyzhu.top/blog/tags/diffusion-model/"/>
    
  </entry>
  
  <entry>
    <title>我们在夜里披着陈旧的天真大笑</title>
    <link href="https://jyzhu.top/blog/we-laugh/"/>
    <id>https://jyzhu.top/blog/we-laugh/</id>
    <published>2024-07-02T20:09:00.000Z</published>
    <updated>2026-05-06T12:00:04.102Z</updated>
    
    <content type="html"><![CDATA[<p>我们在夜里披着陈旧的天真大笑<br />我们在夜里哭<br />在夜里抱着睡<br />我们还没试过<br />在夜里起舞</p><p>你说<br />下个梦里就为我做点心<br />我总说电影画面里不是你<br />我迟钝，你拳掌不留情<br />你又抚摸我的掌心<br />我说你<br />丈量海浪一样的时间用的是把好尺<br />我不认得水<br />必须你教会我游泳再跳进你</p>]]></content>
    
    
      
      
    <summary type="html">&lt;p&gt;我们在夜里披着陈旧的天真大笑&lt;br /&gt;
我们在夜里哭&lt;br /&gt;
在夜里抱着睡&lt;br /&gt;
我们还没试过&lt;br /&gt;
在夜里起舞&lt;/p&gt;
&lt;p&gt;你说&lt;br /&gt;
下个梦里就为我做点心&lt;br /&gt;
我总说电影画面里不是你&lt;br /&gt;
我迟钝，你拳掌不留情&lt;br /&gt;
你又抚</summary>
      
    
    
    
    <category term="poems" scheme="https://jyzhu.top/blog/categories/poems/"/>
    
    
  </entry>
  
  <entry>
    <title>群山</title>
    <link href="https://jyzhu.top/blog/mountains/"/>
    <id>https://jyzhu.top/blog/mountains/</id>
    <published>2024-06-17T16:00:00.000Z</published>
    <updated>2026-05-06T12:00:30.535Z</updated>
    
    <content type="html"><![CDATA[<p>我们有太多的闭口不提<br />交换沉默<br />我想是交换善意<br />那时，想到孩子的孩子<br />群山正重重退去</p><p>那时，连他们也无知<br />我就混入了这个时代<br />学着<br />敬畏山和涂抹的厚重的绿<br />可是我们抛弃<br />他们褪去<br />每个瞬时，我就只贪婪地收看<br />我们同他们被变换要挟<br />在山脚下 或者山巅<br />和一抔黄土一样地臣服</p><p>——2024.6.18 在车上</p>]]></content>
    
    
      
      
    <summary type="html">&lt;p&gt;我们有太多的闭口不提&lt;br /&gt;
交换沉默&lt;br /&gt;
我想是交换善意&lt;br /&gt;
那时，想到孩子的孩子&lt;br /&gt;
群山正重重退去&lt;/p&gt;
&lt;p&gt;那时，连他们也无知&lt;br /&gt;
我就混入了这个时代&lt;br /&gt;
学着&lt;br /&gt;
敬畏山和涂抹的厚重的绿&lt;br /&gt;
可是我们</summary>
      
    
    
    
    <category term="poems" scheme="https://jyzhu.top/blog/categories/poems/"/>
    
    
  </entry>
  
  <entry>
    <title>Where is my moveable feast</title>
    <link href="https://jyzhu.top/blog/where-are-my-memories/"/>
    <id>https://jyzhu.top/blog/where-are-my-memories/</id>
    <published>2024-05-31T09:30:32.000Z</published>
    <updated>2024-05-31T09:32:48.249Z</updated>
    
    <content type="html"><![CDATA[<p>很久没记录。比如说，再读海明威的《流动的盛宴》的时候，是在去了一趟欧洲之后。看到了那种传统欧洲小城的构造，沿河而建，一条一条的路通往河边，河上每座桥基本都有冠名的雕塑，河边几条街道外就是大广场和大教堂。</p><p>见过这种之后，再读这本书，对一百年前（吗？）的巴黎就有感觉了。海明威说他去新开的咖啡店喝奶油咖啡充饥，我就想到海德堡临河T字路口那家咖啡店了。人来人往的，桌子也不多，但是在这种涌动的拥挤的环境里，那家店竟然能有安静的氛围。不知道会不会贵，所以没去。不过这么个路过瞥了一眼的咖啡店竟然就成了记忆的锚点了。还是应该多记录一些见闻，这几年有很多新鲜的见闻，都空存在语言以及任何媒介之外了。</p><p>Where are my memories? Where is my moveable feast?</p>]]></content>
    
    
      
      
    <summary type="html">&lt;p&gt;很久没记录。比如说，再读海明威的《流动的盛宴》的时候，是在去了一趟欧洲之后。看到了那种传统欧洲小城的构造，沿河而建，一条一条的路通往河边，河上每座桥基本都有冠名的雕塑，河边几条街道外就是大广场和大教堂。&lt;/p&gt;
&lt;p&gt;见过这种之后，再读这本书，对一百年前（吗？）的巴黎就有感</summary>
      
    
    
    
    <category term="thoughts" scheme="https://jyzhu.top/blog/categories/thoughts/"/>
    
    
  </entry>
  
  <entry>
    <title>look at my new keyboard!!</title>
    <link href="https://jyzhu.top/blog/look-at-my-new-keyboard/"/>
    <id>https://jyzhu.top/blog/look-at-my-new-keyboard/</id>
    <published>2024-05-29T18:14:32.000Z</published>
    <updated>2024-05-31T09:26:45.224Z</updated>
    
    <content type="html"><![CDATA[<figure><img src="https://s2.loli.net/2024/05/30/RzloOHq4KsZtJyT.jpg" alt="Rainy 75 + corn cob keycaps" /><figcaption>Rainy 75 + corn cob keycaps</figcaption></figure>]]></content>
    
    
      
      
    <summary type="html">&lt;figure&gt;
&lt;img src=&quot;https://s2.loli.net/2024/05/30/RzloOHq4KsZtJyT.jpg&quot; alt=&quot;Rainy 75 + corn cob keycaps&quot; /&gt;&lt;figcaption&gt;Rainy 75 + corn cob k</summary>
      
    
    
    
    <category term="thoughts" scheme="https://jyzhu.top/blog/categories/thoughts/"/>
    
    
  </entry>
  
  <entry>
    <title>Borges and AI 读后感</title>
    <link href="https://jyzhu.top/blog/Reading-Borges-and-AI/"/>
    <id>https://jyzhu.top/blog/Reading-Borges-and-AI/</id>
    <published>2024-04-27T10:57:45.000Z</published>
    <updated>2024-04-27T11:01:20.966Z</updated>
    
    <content type="html"><![CDATA[<p>论文地址：<a href="https://arxiv.org/abs/2310.01425" class="uri">https://arxiv.org/abs/2310.01425</a></p><p>作者：<a href="https://arxiv.org/search/cs?searchtype=author&amp;query=Bottou,+L">Léon Bottou</a>, <a href="https://arxiv.org/search/cs?searchtype=author&amp;query=Schölkopf,+B">Bernhard Schölkopf</a></p><p>发表： Arxiv</p><hr /><p>首先我们可以用博尔赫斯的“小径分叉的花园”的隐喻，来类比大语言模型。人们做出一个选择的时候，所付出的代价是放弃了其他所有可能的选择。那如果把所有可能的选择完全考虑进来，就能得到一个充满无数可能性分叉的花园。这个花园，就可以类比“完美语言模型”。它包含了所有可能的人类语言的组合。当它在聊天框输出一串文字的时候，就像是从分叉的小径中选择其中一条一样，或者是人类做出一个选择的时候一样。未被选择的词语构成了其他的分叉。“语言模型”这个全包的概念，是完美的，包含了所有语言的可能性。</p><p>实际上，“完美语言模型”就像一本预言书，里面包含了所有我们想要听到的话、可能听到的话。唯一能影响它输出的内容的，就是和它展开对话的那个人。我们用prompt作为引子来引导语言模型的生成，这其实就是对无限的可能性施加限制，prompt完全决定了语言模型的输出。</p><p>我们可以先从“幻觉”这个所谓的问题讨论起。其实这不是“幻觉”，而是一种“虚构”，是从人类语言中所有有可能的分叉中，适当地挑选出可能性高的那些，借用了一些合理的逻辑，虚构了另一套合理的故事。“完美的语言模型”，倒不如说是一个“虚构小说机器”。</p><p>一类人认为有一些大逆不道的话永远不该存在，所以要求审查LLM；更多的另一类人是希望LLM真的像智能一样为人服务、创造价值，所以要在必要的场合说必要的话。两者为了各自的目的，都希望对LLM这种本身不包含任何是非对错评判偏差的“完美语言模型”进行剪枝，去掉不想要的部分。所用的手段就是用人工精挑细选的语料来微调，或者叫human feedback。</p><p>实际上这种审查有很多的问题。最大的问题是，有了“虚构小说机器”之后，它对我们人类文化的影响比想象中大，我们会依赖它来塑造我们的知识和对未来的想象，因此它会影响整个人类的文化。当来到这个层次后，“审查”，或者说“净化”，就变得危险了，因为谁都想把自己的那一套强加在LLM之上，可是谁的标准才是真的标准呢，或者我们真的能有真正的“净化”标准吗？</p><p>“在未来，几乎每个人都使用语言模型来丰富他们的思维，对语言模型所写内容的控制权将成为对我们所思考内容的控制权。如此强大的力量能存在而不被滥用吗？</p><p>“有些人担心小说机器是一种无所不知的人工智能，可能会比我们活得更久；然而，更黑暗的诱惑是让我们的思想屈服于这个现代的皮提亚，不受真理和意图的影响，但却可以被他人操纵。如果我们一直把小说机器误认为是可以减轻我们思考负担的人工智能，那么语言模型无休止的喋喋不休会让我们像苦苦挣扎的图书馆员一样疯狂。然而，作为小说机器，它们的故事可以丰富我们的生活，帮助我们重温过去，了解现在，甚至瞥见未来。”</p><p>作者最后说，人们发明的这种“机器”，不仅能写故事，而且可以写故事的所有变体，这是人类历史上一个重要的里程碑，堪比印刷机的发明。或者，甚至可以比作早在印刷或书写被发明之前的，在洞穴壁画之前就出现的，一种塑造人类的艺术：讲故事的艺术。</p>]]></content>
    
    
      
      
    <summary type="html">&lt;p&gt;论文地址：&lt;a href=&quot;https://arxiv.org/abs/2310.01425&quot; class=&quot;uri&quot;&gt;https://arxiv.org/abs/2310.01425&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;作者：&lt;a href=&quot;https://arxiv.org/sea</summary>
      
    
    
    
    <category term="Computer Notes" scheme="https://jyzhu.top/blog/categories/Computer-Notes/"/>
    
    
    <category term="Literature" scheme="https://jyzhu.top/blog/tags/Literature/"/>
    
    <category term="AI" scheme="https://jyzhu.top/blog/tags/AI/"/>
    
  </entry>
  
  <entry>
    <title>Score-based generative model</title>
    <link href="https://jyzhu.top/blog/Score-based-generative-model/"/>
    <id>https://jyzhu.top/blog/Score-based-generative-model/</id>
    <published>2024-04-09T20:08:34.000Z</published>
    <updated>2024-04-12T13:08:47.664Z</updated>
    
    <content type="html"><![CDATA[<blockquote><p>references:</p><p><a href="https://yang-song.net/blog/2021/score/" class="uri">https://yang-song.net/blog/2021/score/</a></p><p><a href="https://deeplearning.neuromatch.io/tutorials/W2D4_GenerativeModels/student/W2D4_Tutorial2.html#" class="uri">https://deeplearning.neuromatch.io/tutorials/W2D4_GenerativeModels/student/W2D4_Tutorial2.html#</a></p><p><a href="https://lilianweng.github.io/posts/2021-07-11-diffusion-models/" class="uri">https://lilianweng.github.io/posts/2021-07-11-diffusion-models/</a></p></blockquote><h1 id="score-based-models-v.s.-diffusion-models">Score-based models v.s. diffusion models</h1><ul><li>一开始两者独立发展，所以有不同的理论依据和术语</li><li>最后两者殊途同归：得到一样的模型</li></ul><h1 id="score-function">Score function</h1><ol type="1"><li>生成模型可以归类为两类：<ol type="1"><li>显式的，基于likelihood的模型，比如autoregressive，normalizing flow，VAE。这些方法通过近似最大似然来建模概率密度分布。问题是，为了计算likelihood，需要一个normalizing constant这个量，它要么是未知的，要么要想尽办法通过其他的限制来估计或者消除。所以这类模型比较复杂。</li><li>隐式的，直接建模一个概率分布的sample process，而不是概率分布本身。比如GAN。但是它需要对抗学习，这比较不稳定，而且可能有模式坍塌的问题。</li></ol></li><li>Score function和第一类相关，它也是建模likelihood——但不是它本身，而是跟它相关的一个量，即 Stein score function。这样的一个神奇好处是，可以直接消除normalizing constant这个量。 <img src="https://s2.loli.net/2024/04/12/rGvERP3W1gXV964.png" /> <em>（图中，等高线表示一个概率分布，箭头表示它的分数场。score-based model就是建模这些分数场)</em></li><li>具体一点来说：<ol type="1"><li>假设给定一个数据集 <span class="math inline">\({x_1,x_2,...,x_N}\)</span>，每个数据都是从一个未知的数据分布 <span class="math inline">\(p(x)\)</span> 采样。我们用一个生成模型来生成新的数据，这些数据都是从这个分布中采样的</li><li>我们要想办法表示这个概率分布。前面说的基于likelihood的模型是这么做的：直接建模这个概率密度函数： <span class="math display">\[ p_\theta(x)=\frac{e^{-f_\theta(x)}}{Z_\theta} \]</span> 其中这个 <span class="math inline">\(Z_\theta&gt;0\)</span> 就是依赖于 <span class="math inline">\(\theta\)</span> 的那个normalizing constant了。 这个 <span class="math inline">\(p_\theta(x)\)</span> 训练的目标函数就是最大log-likelihood： <span class="math display">\[  \max_\theta\sum^N_{i=1}\log p_\theta(x_i) \]</span></li><li>前面说了，问题就是 <span class="math inline">\(Z_\theta\)</span> 很难估计。为了避开估计它，我们的神经网络不再直接估计概率分布，而是估计它的分数（概率密度函数的log的梯度）： <span class="math display">\[s_\theta(x)=\nabla_x\log p(x)=-\nabla_x f_\theta(x)-\nabla_x\log Z_\theta = -\nabla_x f_\theta(x)\]</span> 去掉了 <span class="math inline">\(Z_\theta\)</span>！</li><li>训练的目标函数是 <strong>Fisher divergence</strong>： <span class="math display">\[ \mathbb E_{p(x)}[\|\nabla_x\log p(x)-s_\theta(x)\|^2_2] \]</span></li><li>现在的问题就是，上式中的 <span class="math inline">\(\nabla_x\log p(x)\)</span>未知。但是很好解决，一种叫<strong>score matching</strong>的方法可以直接最小化 <strong>Fisher divergence</strong>，不需要知道真实的score。</li><li>最后的问题就是得到了这个 score function 之后，怎么从中采样新的数据了。<strong>Langevin dynamics</strong> 提出了一种迭代式的采样方法，就是和diffusion的步骤一模一样的。相当于从空间中任意一个位置初始化，然后顺着score function往高概率密度的方向优化，足够多的步骤之后就到了峰值处。</li></ol></li></ol><h1 id="关-noise-什么事">关 noise 什么事？</h1><p>是这样的，前面提到的方法已经讲清楚了神经网络建模和目标函数。但是假如直接拿着数据集（比如图像）让网络学习的话，效果并不好。因为这个score function在低概率密度的区域样本很少，学得也很不好。</p><p><img src="https://s2.loli.net/2024/04/12/6cuXBCoHShsMiaO.png" /></p><p>为了解决这个问题，我们才往数据中加 noise，在被噪声扰动后的数据集上训练网络。这些扰动后的数据点极大地扩充了数据集，最主要的是能填充那些低概率密度的分布区域。</p><p>大的噪声破坏数据分布，小的噪声不够填充低概率密度区域。所以就用多尺度的噪声。也就是diffusion model的前向过程了。</p><p>总体来说，score-based model就是在这些噪声扰动后的数据集上训练的。训练的时候，噪声的尺度当然也可以作为一个已知量输入，也就是noise conditional <span class="math inline">\(s_\theta(x,i)\)</span></p><h1 id="diffusion-models">diffusion models</h1><p>to read：<a href="https://lilianweng.github.io/posts/2021-07-11-diffusion-models/" class="uri">https://lilianweng.github.io/posts/2021-07-11-diffusion-models/</a></p><p>从diffusion models的角度解释整个模型</p>]]></content>
    
    
      
      
    <summary type="html">&lt;blockquote&gt;
&lt;p&gt;references:&lt;/p&gt;
&lt;p&gt;&lt;a href=&quot;https://yang-song.net/blog/2021/score/&quot; class=&quot;uri&quot;&gt;https://yang-song.net/blog/2021/score/&lt;/a&gt;&lt;/</summary>
      
    
    
    
    <category term="Computer Notes" scheme="https://jyzhu.top/blog/categories/Computer-Notes/"/>
    
    
    <category term="diffusion model" scheme="https://jyzhu.top/blog/tags/diffusion-model/"/>
    
    <category term="generative model" scheme="https://jyzhu.top/blog/tags/generative-model/"/>
    
  </entry>
  
  <entry>
    <title>Reading Learning Locally Editable Virtual Humans</title>
    <link href="https://jyzhu.top/blog/Reading-Learning-Locally-Editable-Virtual-Humans/"/>
    <id>https://jyzhu.top/blog/Reading-Learning-Locally-Editable-Virtual-Humans/</id>
    <published>2023-12-12T09:02:56.000Z</published>
    <updated>2024-04-12T13:01:05.871Z</updated>
    
    <content type="html"><![CDATA[<p>论文地址：<a href="https://files.ait.ethz.ch/projects/custom-humans/paper.pdf" class="uri">https://files.ait.ethz.ch/projects/custom-humans/paper.pdf</a></p><p>作者：Hsuan-I Ho, Lixin Xue, Jie Song, Otmar Hilliges。ETH</p><p>发表： CVPR23</p><p>链接： <a href="https://custom-humans.github.io/" class="uri">https://custom-humans.github.io/</a></p><hr /><h2 id="why">Why：</h2><ol type="1"><li>3D数字人现在很热门</li><li>传统方法中，重建好一个3D数字人之后，不知道怎么编辑和定制它</li><li>所以想搞一个方法，既能创建3D数字人，又能在创建完成后对它进行定制化</li></ol><h2 id="what">What：</h2><ol type="1"><li>这个方法允许在不同的3D人之间部分地迁移几何和外貌细节，还能在改变人的姿势的时候保留一致的局部细节</li><li>具体一点说，是把NeRF和LBS-articulated（铰接）的mesh模型的优点结合起来：NeRF很灵活，有很强的建模能力；mesh模型可以变形，并且可以被完全显式地控制</li><li>再具体一点，是提出了一个混合的3D人体representation，允许跨不同主体进行局部编辑；然后提出了一整套的生成这种3D数字人的流程，既能拟合没见过的3D扫描人数据，也能随机采样生成新的个体；另外还提出一个大尺度高质量3D扫描人体数据集</li></ol><h2 id="how">How：</h2><p><img src="https://s2.loli.net/2023/12/12/3MfkXdqwn1rpeF8.png" /></p><ol type="1"><li><p>混合的3D人体representation：</p><ol type="1"><li><p>有一个可学习的特征codebook，包含<span class="math inline">\(M\times 2F\)</span>个特征，其中<span class="math inline">\(F\)</span>个是几何特征，另外<span class="math inline">\(F\)</span>个是外貌特征。给定一个human mesh，mesh有M个顶点（M很大，一万多），每个顶点跟codebook中的特征显式地一一对应。</p></li><li><p>当NeRF渲染时，给定空间中一个query点，提取局部的特征：</p><figure><img src="https://s2.loli.net/2023/12/12/RL3ehZ6nuGq12B4.png" alt="image-20231212173121173" /><figcaption>image-20231212173121173</figcaption></figure><ol type="1"><li>找出mesh顶点中离它最近的3个顶点，对这3个顶点对应的特征用barycentric interpolation（重心插值法？）得到插值后的特征</li><li>还需要把全局坐标转换成局部坐标，这么做是为了让局部与全局解耦，方便在后续更改人体pose的时候不影响局部的细节。转换方式：还是根据mesh顶点中离它最近的3个顶点组成的三角形，直接用<span class="math inline">\((u,v)\)</span>表示query点投影到三角形平面上的点在三角形中的位置，然后再加上一个<span class="math inline">\(d\)</span>表示query点距离三角形平面的距离，以及一个<span class="math inline">\(\textbf n\)</span>表示距离的方向</li><li>decoder，或者说renderer，不是单独一个NeRF，而是分成了两个独立的，一个是SDF field，一个是rgb field。论文里说这样能方便用3D loss显式地监督这两个网络。后面的实验证明如果不解耦这两个网络的话，效果会差很多</li><li>那么最后给到这两个neural fields的输入，就是<span class="math inline">\(\textbf f_s/\textbf f_c,(u,v,d),\textbf n\)</span>，分别是几何特征或者颜色特征、局部坐标、方向</li></ol></li></ol></li><li><p>采样个体样本时，有两种方式：</p><ol type="1"><li>直接采样已有的个体样本。训练的时候，针对每个个体样本，都是单独学习一个codebook。假如有N个ground truth人体，那codebook实际上是有<span class="math inline">\(N\times M\times 2F\)</span>这么多维度。想要采样其中一个个体，直接从N个样本中取一个entry就好了</li><li>生成全新的样本？用PCA。具体说，是创建一个新的D维的codebook（<span class="math inline">\(D\times 2MF\)</span>），这D个维度是对N个人体样本拟合出的PCA系数。生成随机新人体样本的时候，只要简单随机生成D个PCA参数，然后乘以利用这个新codebook算好的特征向量就好了</li></ol></li><li><p>训练过程</p><ol type="1"><li>给定一个扫描的3D人体（高质量、很细节的mesh），用其他现有工具把一个SMPL mesh和它对齐，得到相应的pose和shape参数。</li><li>用M个扫描的3D人体，分别训练特征codebook的M个entries。</li><li>三方面的loss：<ol type="1"><li>3D loss，包括rgb loss和sdf loss；</li><li>2D adversarial loss，这里是用前面提到的PCA采样方法，得到随机生成的人体，渲染成2D图像；然后用相同的相机视角用任意gt 3D人体扫描得到2D图像，然后用StyleGAN辨别这两张真假图像。这里的用意是，不需要严格相同的gt监督，就可以对PCA得到的生成样本进行监督，这样的监督又能传播到全部训练样本上，应该是能很好地提升模型的泛化性能。实验结果看这个loss还挺重要的。</li><li>简单的对特征的正则项，让特征符合高斯分布</li></ol></li></ol></li><li><p>一些编辑方式</p><figure><img src="https://s2.loli.net/2023/12/12/Xh6aIN3q7OgzGrl.png" alt="image-20231212175622543" /><figcaption>image-20231212175622543</figcaption></figure><ol type="1"><li><p>初始化：采样一个3D数字人样本。也就是前面提到的两种采样方式，可以采样已有的，也可以采样全新生成的</p></li><li><p>optimize特征，拟合一个3D扫描人体。用到的是3D loss</p></li><li><p>跨个体的特征编辑：简单粗暴，先用Blender选择人体局部对应的顶点，然后把想要的样本的codebook中的那部分特征交换到目标的codebook来</p></li><li><p>绘制材质：拿到渲染后的2D图像后，可以直接对2D图像进行一些绘制，然后再用它监督训练codebook。后面的实验结果看上去效果还不错，但limitation说不能很好地拟合过于高精度的细节</p><figure><img src="https://s2.loli.net/2023/12/12/b3nCjQsoRNuwcTg.png" alt="image-20231212180508779" /><figcaption>image-20231212180508779</figcaption></figure></li><li><p>更换人体姿势：这个representation本身是由一个SMPL mesh加一个codebook组成的；只要对SMPL mesh的参数进行修改，就能直接改变姿势了</p></li></ol></li><li><p>实验</p><ol type="1"><li>用了自己提出的CustomHumans以及THuman2.0数据集来训练模型；用SIZER数据集来测试对没见过的人体扫描的拟合性能</li><li>用chamfer distance、normal consistency、f-score来衡量拟合性能；结果挺好</li><li>展示了编辑性能，看起来挺好</li><li>ablation study：值得深究<img src="https://s2.loli.net/2023/12/12/gwQCR6b2dvLpAz8.png" alt="image-20231212175727556" /></li></ol></li></ol>]]></content>
    
    
      
      
    <summary type="html">&lt;p&gt;论文地址：&lt;a href=&quot;https://files.ait.ethz.ch/projects/custom-humans/paper.pdf&quot; class=&quot;uri&quot;&gt;https://files.ait.ethz.ch/projects/custom-humans/pa</summary>
      
    
    
    
    <category term="Computer Notes" scheme="https://jyzhu.top/blog/categories/Computer-Notes/"/>
    
    
    <category term="3D Computer Vision" scheme="https://jyzhu.top/blog/tags/3D-Computer-Vision/"/>
    
    <category term="3D Reconstruction" scheme="https://jyzhu.top/blog/tags/3D-Reconstruction/"/>
    
    <category term="3D Human" scheme="https://jyzhu.top/blog/tags/3D-Human/"/>
    
  </entry>
  
  <entry>
    <title>Reading Neural Capture of Animatable 3D Human from Monocular Video</title>
    <link href="https://jyzhu.top/blog/Reading-Neural-Capture-of-Animatable-3D-Human-from-Monocular-Video/"/>
    <id>https://jyzhu.top/blog/Reading-Neural-Capture-of-Animatable-3D-Human-from-Monocular-Video/</id>
    <published>2023-11-23T20:46:40.000Z</published>
    <updated>2023-11-23T21:43:37.425Z</updated>
    
    <content type="html"><![CDATA[<p>论文地址：</p><p>作者：Gusi Te, Xiu Li, Xiao Li, Jinglu Wang, Wei Hu, and Yan Lu</p><p>发表： ECCV 2022</p><p>链接： <a href="https://arxiv.org/abs/2208.08728" class="uri">https://arxiv.org/abs/2208.08728</a></p><hr /><h2 id="why">Why：</h2><ol type="1"><li>之前的3D人体重建工作一般需要多视角视频，或者额外的3D几何信息。这篇工作以单视角视频为输入</li><li>之前的工作建模出来的3D人体很难泛化到新的pose</li><li>之前的工作都只能解决一部分的问题：基于参数化人体模型的方法对appearance的表示精度有限；基于NeRF的方法的appearance效果好，但是要么只关注于NeRF场本身的构建，要么需要精确的3D mesh作为先验。</li></ol><h2 id="what">What：</h2><ol type="1"><li>提出一个从单视角视频重建animatable的3D人体的方法</li><li>表示方法是把 dynamic NeRF 和一个 human mesh （SMPL）相结合。这个 dynamic NeRF 的输入是一些嵌入到mesh 顶点的局部信息，这样，当需要表现一个人不同的姿势的时候，本质上是对这个 canonical space 的静态NeRF进行deformation。<strong>这里的关键问题是如何设计这个局部信息，来让查询observation space中的任意一点的时候，都能够良好地deform到canonical space，从而找到静态NeRF里正确的点</strong></li><li>在优化过程中，首先借用别的工具初始化一个mesh pose，然后逐帧地同时 finetune mesh pose 和 NeRF</li></ol><h2 id="how">How：</h2><h3 id="query-embedding-for-nerf">Query embedding for NeRF</h3><figure><img src="https://s2.loli.net/2023/11/24/IFWcdEZDfquSVNJ.png" alt="image-20231124051120340" /><figcaption>image-20231124051120340</figcaption></figure><p>精髓就在图里了：</p><ol type="1"><li><p>人体的表现形式是我们熟悉的：首先有一个由pose参数<span class="math inline">\(\theta\)</span>驱动的SMPL mesh，以及一个mesh-guided NeRF，后者的输入是对应query ray上的3D points的embedding</p></li><li><p>Query embedding的具体构成：</p><ol type="1"><li>最直观的 Latent Code：存储在每一个mesh顶点上，表示的是appearance信息。对于一个query point，会找到mesh顶点中K nearest neighbors所对应的latent codes</li><li>被称为 Deformation Guidance：其实是在<strong>canonical space</strong>中，刚刚用到的那些KNN顶点的坐标（用inverse LBS得到），以及query point相对于mesh表面投影点的方向。这个信息能够指导deformation field，所以叫guidance</li><li>另一方面还有 Deformation Priors：是在<strong>observation space</strong>中，query point相对于刚刚用到的那些KNN顶点的距离。文中说这是用来防止deformation field落入local minima的，所以叫做priors</li></ol></li><li><figure><img src="https://s2.loli.net/2023/11/24/2d4HiJucZTotBxP.png" alt="image-20231124052407094" /><figcaption>image-20231124052407094</figcaption></figure><p>文中特意用上图强调了这里需要用到K近邻顶点，而不是单个最近的顶点。因为如果只用单个最近的顶点（图a），就不能提供不同的deformation pattern 的信息；而（b）里加上了K-NN distance之后，就能有这个deformation pattern信息了。（我有点疑惑什么是deformation pattern，就是这个表面的凹凸性吗？）</p></li></ol><h3 id="训练过程">训练过程</h3><ol type="1"><li>首先借用别的工具初始化一个mesh pose。但是这个pose不够精准，还需要finetune。文中提到这里直接是finetune per-frame pose parameter，而不用per-vertex offset，因为后者可能容易过拟合到local minima（？有点疑惑，我以为用pose parameter或许是有利于在后续用temporal consistency之类的，但是好像并没有用到；那pose param相比之下就是一个更不精准而已？）</li><li>训练时逐帧地同时 finetune mesh pose 和 NeRF。loss很直观：<ol type="1"><li>NeRF渲染图和原视频帧的L2 loss</li><li>正则 <span class="math inline">\(\|\theta-\theta^0\|^2_2\)</span>，是为了让每帧的pose finetune不至于太偏离初始估计</li></ol></li></ol><h3 id="实验">实验</h3><ol type="1"><li>训练要在v100上60小时；数据集用到People-Snapshot、DoubleFusion、ZJU-MoCap、Human3.6M；指标用PSNR和SSIM</li><li>在2022，没有什么能直接对比的其他工作，跟需要多视角视频输入的AniNeRF、底层架构很不同的A-NeRF、mesh-based 的方法VideoAvatar比了三下，比他们都好</li></ol><figure><img src="https://s2.loli.net/2023/11/24/r4V68kqj9HBdaxD.png" alt="image-20231124054314933" /><figcaption>image-20231124054314933</figcaption></figure>]]></content>
    
    
      
      
    <summary type="html">&lt;p&gt;论文地址：&lt;/p&gt;
&lt;p&gt;作者：Gusi Te, Xiu Li, Xiao Li, Jinglu Wang, Wei Hu, and Yan Lu&lt;/p&gt;
&lt;p&gt;发表： ECCV 2022&lt;/p&gt;
&lt;p&gt;链接： &lt;a href=&quot;https://arxiv.org/abs/</summary>
      
    
    
    
    <category term="Computer Notes" scheme="https://jyzhu.top/blog/categories/Computer-Notes/"/>
    
    
    <category term="3D Computer Vision" scheme="https://jyzhu.top/blog/tags/3D-Computer-Vision/"/>
    
    <category term="Human Reconstruction" scheme="https://jyzhu.top/blog/tags/Human-Reconstruction/"/>
    
  </entry>
  
  <entry>
    <title>KL散度 （Kullback-Leibler Divergence，相对熵）</title>
    <link href="https://jyzhu.top/blog/KL%E6%95%A3%E5%BA%A6-%EF%BC%88Kullback-Leibler-Divergence,%E7%9B%B8%E5%AF%B9%E7%86%B5%EF%BC%89/"/>
    <id>https://jyzhu.top/blog/KL%E6%95%A3%E5%BA%A6-%EF%BC%88Kullback-Leibler-Divergence,%E7%9B%B8%E5%AF%B9%E7%86%B5%EF%BC%89/</id>
    <published>2023-10-11T20:04:11.000Z</published>
    <updated>2024-04-12T13:07:00.554Z</updated>
    
    <content type="html"><![CDATA[<blockquote><p>References:</p><p><a href="https://zhuanlan.zhihu.com/p/45131536" class="uri">https://zhuanlan.zhihu.com/p/45131536</a></p><p><a href="https://hsinjhao.github.io/2019/05/22/KL-DivergenceIntroduction/" class="uri">https://hsinjhao.github.io/2019/05/22/KL-DivergenceIntroduction/</a></p><p><a href="https://www.jiqizhixin.com/articles/2018-05-29-2" class="uri">https://www.jiqizhixin.com/articles/2018-05-29-2</a></p></blockquote><h1 id="含义">含义</h1><ul><li>一句话：KL散度可以用来<strong>衡量两个分布之间的差异/匹配程度</strong>。但它并不是一个真正的度量或者距离，因为它不具有对称性。</li><li>广义的散度指的是一类运算，它将矢量空间上的一个矢量场对应到一个标量场上，通俗的讲，就是输入一组矢量，返回一个标量。</li><li>在统计学意义上来说，KL散度可以用来衡量两个分布之间的差异程度。若两者差异越小，KL散度越小，反之亦反。当两分布一致时，其KL散度为0。正是因为其可以衡量两个分布之间的差异，所以在VAE、EM、GAN中均有使用到KL散度。</li><li>在信息论中，其可理解为编码系统对信息进行编码时所需要的平均附加信息量。</li></ul><h1 id="定义">定义</h1><p><img src="https://s2.loli.net/2024/04/12/yDOmFUz2IMvjCbh.png" /></p><h3 id="理解熵">理解熵</h3><ul><li>熵是用来表示信息量。</li><li>首先，我们考虑一个离散的随机变量 <span class="math inline">\(x\)</span> 。当我们观察到这个变量的一个具体值的时候，我们接收到了多少信息呢？</li><li>信息量可以被看成在学习 <span class="math inline">\(x\)</span> 的值的时候的“惊讶程度”。如果有人告诉我们一个相当不可能的事件发生了，我们收到的信息要多于我们被告知某个很可能发生的事件发生时收到的信息。如果我们知道某件事情一定会发生，那么我们就不会接收到信息。于是，我们对于信息内容的度量将依赖于概率分布<span class="math inline">\(p(x)\)</span> ，因此我们想要寻找一个函数<span class="math inline">\(h(x)\)</span> ，它是概率<span class="math inline">\(p(x)\)</span>的单调递增函数，表达了信息的内容。 <span class="math inline">\(h(.)\)</span> 的形式可以这样寻找：如果我们有两个不相关的事件 x 和 y ，那么我们观察到两个事件同时发生时获得的信息应该等于观察到事件各自发生时获得的信息之和，即 <span class="math inline">\(h(x)+h(y)=h(x,y)\)</span> 。两个不相关事件是统计独立的，因此<span class="math inline">\(p(x)p(y)=p(x,y)\)</span>。根据这两个关系，很容易看出<span class="math inline">\(h(.)\)</span>一定与<span class="math inline">\(p(.)\)</span> 的对数有关。因此，我们有： <span class="math display">\[ h(x)=-\log p(x)\]</span> 其中，负号确保了信息一定是正数或者是零。注意，低概率事件<span class="math inline">\(x\)</span> 对应于高的信息量。</li><li>现在假设一个发送者想传输一个<strong>随机变量</strong>的值给接收者。这个过程中，他们传输的<strong>平均信息量</strong>通可以通过求上式关于概率分布 p(x) 的期望得到。这个期望值就是熵Entropy： <span class="math display">\[  H[x]=-\sum_x p(x)\log p(x)\]</span></li><li>它是这个随机变量的平均信息量。</li></ul><h2 id="kl散度的性质">KL散度的性质</h2><ol type="1"><li><span class="math inline">\(D_{KL}(p||q)&gt;=0\)</span>， 当且仅当<span class="math inline">\(p(x)=q(x)\)</span>时取等号</li><li>不满足对称性，即<span class="math inline">\(D_KL(p||q)\neq D_KL(q||p)\)</span></li></ol><h1 id="讨论">讨论</h1><ul><li>KL散度是不对称的。因此不能作为一个距离度量，在使用时往往有一些问题。</li><li>那么就可以用<span class="math inline">\(\alpha\)</span>-散度。KL散度是它的一个特殊化。根据这个，还能算出一个对称的Hellinger距离，它的平方根是一个合法的距离度量</li><li>还可以推广到F散度：把KL散度公式中的<span class="math inline">\(\log\)</span>函数替换为任意的函数f，只要f满足这两个条件：<ol type="1"><li>f是一个凸函数</li><li><span class="math inline">\(f(1)=0\)</span> 此时F散度的表达式为： <span class="math display">\[  D_f(p\|q)=\int q(X)f(\frac{p(X)}{q(X)})dX\]</span> 当<span class="math inline">\(f(X)=X\log X\)</span>时，就是KL散度了。</li></ol></li><li>Bregman散度：这是从另一个角度来思考“距离”。最常见的均方欧氏距离，推广到任意维度的函数之间的距离，同样只是需要一个凸函数就能表达了。这个凸函数的取值，可以表示一大片不同的散度，都属于Bregman散度的特例</li><li>Wasserstein距离。这是用来解决一个问题的：如果两个分布离得太远，完全没有重叠，那么KL散度的值会失去意义。这在深度学习中意味着这一点梯度为0——梯度消失！ Wasserstein距离可以解决这种问题，也叫做Earth-Mover（推土机）距离：当我们希望把一堆土推移成另一堆土的形状和位置，推土代价定义为<strong>移动土的量*土移动的距离</strong>，这个代价就是两个分布的Wasserstein距离。 Wessertein距离相比KL散度和JS散度的<strong>优势</strong>在于：即使两个分布的支撑集没有重叠或者重叠非常少，仍然能反映两个分布的远近。WGAN就是Wasserstein距离比较经典的应用之一。</li></ul><h1 id="信息的压缩">信息的压缩</h1><ol type="1"><li>假如我们有一组样本，每个样本分别有不同的值。可以直接记下每个样本的信息。</li><li>也可以用这个样本的分布来表示同样的信息量。（每个取值的概率）</li><li>还可以用一个已知的分布来表示这个分布（比如均匀分布、二项分布、正态分布），只需要记下具体分布的参数。</li></ol>]]></content>
    
    
      
      
    <summary type="html">&lt;blockquote&gt;
&lt;p&gt;References:&lt;/p&gt;
&lt;p&gt;&lt;a href=&quot;https://zhuanlan.zhihu.com/p/45131536&quot; class=&quot;uri&quot;&gt;https://zhuanlan.zhihu.com/p/45131536&lt;/a&gt;&lt;/p&gt;</summary>
      
    
    
    
    <category term="Computer Notes" scheme="https://jyzhu.top/blog/categories/Computer-Notes/"/>
    
    
    <category term="Computer Vision" scheme="https://jyzhu.top/blog/tags/Computer-Vision/"/>
    
  </entry>
  
  <entry>
    <title>Reading Handy: Towards a high fidelity 3D hand shape and appearance model</title>
    <link href="https://jyzhu.top/blog/Reading-Handy-Towards-a-high-fidelity-3D-hand-shape-and-appearance-model/"/>
    <id>https://jyzhu.top/blog/Reading-Handy-Towards-a-high-fidelity-3D-hand-shape-and-appearance-model/</id>
    <published>2023-07-17T11:32:07.000Z</published>
    <updated>2023-07-21T11:41:56.456Z</updated>
    
    <content type="html"><![CDATA[<p>论文地址：<a href="https://rolpotamias.github.io/Handy/" class="uri">https://rolpotamias.github.io/Handy/</a></p><p>作者：Rolandos Alexandros Potamias, Stylianos Ploumpis, Stylianos Moschoglou, Vasileios Triantafyllou, Stefanos Zafeiriou. From Imperial College London and Cosmos.</p><p>发表： CVPR23</p><p>链接： <a href="https://github.com/rolpotamias/handy" class="uri">https://github.com/rolpotamias/handy</a></p><hr /><figure><img src="https://github.com/rolpotamias/handy/raw/main/figures/teaser_fig.png" alt="handy" /><figcaption>handy</figcaption></figure><blockquote><p>如果你去做这个任务，会怎么做？作者做的方法和你想的有什么差异？</p></blockquote><p>Q：我感觉这个任务听起来还挺直观的，就是用GAN去训练外观，定义一些更多vertices的mesh template，用超级大量的样本去训练堆效果嘛？hand model的定义会有什么新意吗？我倒是想不出来。</p><p>A：确实很直观，hand model的定义没什么太大区别。贡献点主要在于：1. 很大很好很variant的新数据集，造成了很好的Handy 2. 用StyleGAN来学texture，而不是传统的PCA，得到的texture更高频细节，更好。</p><h2 id="why">Why：</h2><ol type="1"><li>VR AR发展，对人手的建模、追踪和重建的研究变得流行，因为手是一个重要的显示人的行为的东西</li><li>大部分工作基于MANO，只有很粗糙的low polygon count，而且只基于31个样本构建，distribution不够宽</li><li>大部分工作都忽略了材质的构建</li></ol><h2 id="what">What：</h2><ol type="1"><li>提出一个large-scale的hand model，包含了形状和外观，用超过1200个人类样本训练，样本有large diversity</li><li>构建Synthetic dataset，训练一个hand pose estimation网络，从单张图像中重建手</li><li>提出一个基于GAN的有高频细节的手的外观+形状重建方法，即使是in-the-wild的单视角图像作为输入</li></ol><p>读前疑问：</p><ol type="1"><li>看上去作者是用NeRF做了一个high fidelity的hand model。我不太清楚技术细节如何实现，尤其是nerf如何跟parametric model结合，如果训练一个nerf layer，让它可以根据单张输入图像infer一个新手。不知道我哪里来的误解，总之不是用的nerf诶……</li><li>fig 1 看上去效果有点假……似乎是皮肤反光率的问题，用的什么lighting representation呢？没什么representation，纯粹用PCA去掉了阴影成分</li><li>居然连皱纹、血管、指甲油也能出来，确实是高频细节了。有针对这些东西做特别的优化吗？还是全是那个style-based GAN的功劳，或者大样本量的功劳呢？真是大力出奇迹呀。还真就是GAN的功劳……？</li></ol><h2 id="how">How：</h2><h3 id="收集large-scale数据集">1. 收集large-scale数据集</h3><p>raw scan：3000 vertices meshes。1208个人，包括关于他们的meta data，比如性别，年龄，身高，种族等。这些人的diversity比较大</p><h3 id="形状重建">2. 形状重建</h3><ol type="1"><li>对齐3D scans 和 mesh template<ol type="1"><li>用了两组template，一个是低分辨率的MANO，它可以直接用进SMPL人体模型中，有778个顶点；一个是高分辨的template，有8407个顶点</li><li>获得稠密的correspondence的方法是：<ol type="1"><li>从多视角渲染这些raw scans，用MediaPipe来检测2D关键点</li><li>用linear triangulation来把2D关键点转换到3D；利用手指骨架到表面尖端的投影来检测指尖。</li><li>用3D关键点来把template和3D scans的表面对齐</li><li>用Non-rigid Iterative Closest Point algorithm (NICP)来registration，寻找稠密的顶点对应关系</li></ol></li></ol></li><li>转换成规范的张开手掌的姿势<ol type="1"><li>用PCA构建一个手部形状模型。</li><li>公式和MANO几乎一样，<span class="math inline">\(\beta\)</span> <span class="math inline">\(\theta\)</span> 两个参数，分别是形状和姿势参数。</li></ol></li></ol><h3 id="高分辨率外观模型">3. 高分辨率外观模型</h3><ol type="1"><li>叫一个图像学艺术家（😳）设计了一个UV template，把scans给unwrap成那样了</li><li>对UV textures进行预处理，去掉阴影和光照：用PCA来识别描述阴影的因素，然后把这些因素去掉。（PCA居然这么好用？！）</li><li>用一个图像处理步骤，将手部纹理映射到更自然的颜色，包括增加亮度，伽玛校正，以及调整色调。</li><li>训练过程：不像其他方法那样直接把外观空间映射到一个低频PCA域，而是用GAN来建模材质。学习率较小，0.001；一个正则权重50也很有效。（啊？这个GAN就这么一句带过吗？直接用的StyleGANv3？）</li></ol><h3 id="实验">实验</h3><ol type="1"><li>和MANO比hand model：<ol type="1"><li>更紧致，5个主成分表现90% variance，mano需要9个才行</li><li>泛化到数据集外的手的能力更强</li><li>特异性误差（specificity error）？衡量生成的手和ground truth的误差</li></ol></li><li>重建小孩的手，效果更好</li><li>从单张图像进行3D重建：<ol type="1"><li>生成数据集：用自己训的GAN模型生成30000张图像，为了更真实，渲染的手跟ShapeNet中的物体有交互，以及是和用SMPL表示的人放在一起的</li><li>模型直接参考3，14，16；加了一个预测材质参数的分支</li><li>loss：L2 between estimated and gt shape parameter， pose parameter，and 3D vertices； L1 between estimated and gt UV map；L1 between estimated and gt 2D image；LPIPS loss on two images</li><li>另外设计了in-the-wild数据集，用预训练的模型预测handy 姿势、形状和材质参数，然后只优化材质参数w来拟合材质。</li><li>优化函数包括L1 and LPIPS loss on two images，以及一个对w的L2正则。得到了改进的材质参数w‘之后，finetune回归网络。</li><li>为了定量评估所提出方法的纹理重建，我们向网络提供数据中使用的扫描设备的图像。gt UV map用的是之前registration后得到的。（我不理解诶，这样真的能跟HTML公平比较吗？一方面你的handy就是从这些数据中来的，当然能对in-distribution的东西拟合得更好啊？另一方面HTML生成的UV map和你的定义是一样的吗？这个gt UV map对它来说有用吗？）</li><li>结论是：handy+GAN能得到高频细节，甚至皱纹、戒指、纹身、指甲油、白癜风之类的；handy+PCA会过渡平滑，甚至对肤色的重建失败；HTML更不行。</li></ol></li><li>Test on FreiHand 刷新了指标，7.8 MPVPE and MPJPE……</li><li>从点云重建形状和姿势。降维打击了MANO和LISA，即使用Hand+MANO+10个PCA Components，也比其他方法好很多……</li></ol>]]></content>
    
    
      
      
    <summary type="html">&lt;p&gt;论文地址：&lt;a href=&quot;https://rolpotamias.github.io/Handy/&quot; class=&quot;uri&quot;&gt;https://rolpotamias.github.io/Handy/&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;作者：Rolandos Alexandros Po</summary>
      
    
    
    
    <category term="Computer Notes" scheme="https://jyzhu.top/blog/categories/Computer-Notes/"/>
    
    
    <category term="3D Computer Vision" scheme="https://jyzhu.top/blog/tags/3D-Computer-Vision/"/>
    
    <category term="NeRF" scheme="https://jyzhu.top/blog/tags/NeRF/"/>
    
    <category term="Hand" scheme="https://jyzhu.top/blog/tags/Hand/"/>
    
  </entry>
  
  <entry>
    <title>ChatGPT Applications to be explored</title>
    <link href="https://jyzhu.top/blog/ChatGPT-Applications-to-be-explored/"/>
    <id>https://jyzhu.top/blog/ChatGPT-Applications-to-be-explored/</id>
    <published>2023-07-16T17:57:48.000Z</published>
    <updated>2023-07-16T18:01:58.015Z</updated>
    
    <content type="html"><![CDATA[<p>今天逛 github，发现了一些很 amazing 的chatgpt applications，摘录一些感兴趣的精华在此。真是感慨：LLM 以来天天风云变幻，弄潮儿在前面兴风作浪，我在后面望其项背……</p><ol type="1"><li><p>(Useful) egoist / openai-proxy</p><p>用 Vercel 开一个小的 Proxy server，转发 gpt API，这样可以绕开有些国家地区的 IP 限制</p></li><li><p>BuilderIO / ai-shell</p><p>在命令行里使用 chatgpt，把自然语言转化成 Linux commands，命令是 <code>ai [texts]</code></p></li><li><p>eli64s / readme-ai</p><p>一个轻量的 script，根据 repository 生成酷炫的 readme 文件</p></li><li><p>efJerryYang / chatgpt-cli</p><p>命令行 chatgpt client</p></li><li><p>yufeikang / ai-cli</p><p>另一个命令行 chatgpt client（实测的时候再对比一下这俩）</p></li><li><p>mukulpatnaik / researchgpt</p><p>输入论文 PDF 文件，然后和 gpt 聊论文。一个用 Flask 开发的 web client 貌似，可以再仔细看一下咋实现的，挺有意思</p></li><li><p>(⭐️ Amazing) AntonOsika / gpt-engineer</p><p>很方便安装，pip install 就好了！直接通过描述 + AI 追问 + 补充细节，生成一个代码项目</p></li><li><p>(⭐️ Amazing) Yidadaa / ChatGPT-Next-Web</p><p>好像很实用的 web GUI！一键部署到 Vercel。我找这玩意主要是为了直接用 API 访问 GPT-4，就不用订阅每个月的 ChatGPT Plus 了，后者太贵了，也用不了那么多</p></li></ol><p><img src="https://s2.loli.net/2023/07/17/QU2X5ckaCmyJeGv.png" /></p>]]></content>
    
    
      
      
    <summary type="html">&lt;p&gt;今天逛 github，发现了一些很 amazing 的chatgpt applications，摘录一些感兴趣的精华在此。真是感慨：LLM 以来天天风云变幻，弄潮儿在前面兴风作浪，我在后面望其项背……&lt;/p&gt;
&lt;ol type=&quot;1&quot;&gt;
&lt;li&gt;&lt;p&gt;(Useful) eg</summary>
      
    
    
    
    <category term="Computer Notes" scheme="https://jyzhu.top/blog/categories/Computer-Notes/"/>
    
    
    <category term="LLM" scheme="https://jyzhu.top/blog/tags/LLM/"/>
    
  </entry>
  
</feed>
