Tianke Youke

A sanctuary for secreting and rushing at night.

0%

这学期开了数据科学课,很开心。我校信管还是有点跟上时代,不至于跟着整个老旧专业的没落而没落,而是有转型打算的嘛。听c老师说甚至学院开会打算把整个专业改名,安上「大数据」,但后来发现如此的话教学内容也要大改而师资不够。说白了就是学院里边很多老师还是太软了,技术不大行,教不了硬的。

这课两周内把前四章基础的东西讲完了,数据导入和简单数据预处理之类的,比我想象中快,我还比较期待后面能学到新东西。

第五章开了个头,讲的是「选择和评价模型」,大抵是介绍机器学习中的常用模型,分清遇到不同数据分析需求时适用的模型。令我失望的是,真的真的只是讲了一下模型的种类,告诉你模型可以用来做什么,连一点点原理都没有涉及。我希望今天把课程所学温习,把上学期的实践课学到的机器学习原理整合进知识框架里,顺道把之前的笔记好好整理一下。如果合适的话,再发个公众号文章也不错(心心念念的广告费)。

不同于ml角度,把机器学习模型分为监督学习和无监督学习;ds是从业务问题的角度出发,把模型分为分类、打分、概率、排名、聚类等。我显然更喜欢前者的分类,相比较之下后者的分法互相交叉,令人迷惑。

阅读全文 »

  1. R is easy. Half of Python half of Matlab.
  2. R最大的简便就是把各种统计概率机器学习功能都打包好了嘛

作业题改错:

One:

1
2
3
4
5
6
7
#确定观察值相对较少的站点
agg<-aggregate(Station,list(Station),length)
minStation<-agg[agg$x==min(agg$x),]
minStation
#生成一个忽略这些站点的新数据框
newisit<-isit[!Station %in% minStation[,1],]
newisit
阅读全文 »

代码改来改去已经改迷糊了……所以从现在开始每次改了些什么都记录一下吧:

上上次:老师布置新添加一个话题之后,我简单复制了一份新爬虫,把topic参数改了一下,这样打算topic 1爬完后用新爬虫爬topic 2,互不干涉;但是老师找上来说两个话题必须同时爬才行。

所以上次:我把两个爬虫融合在一起,让topic参数不由手动指定,而根据URL自动识别,然后美滋滋觉得没问题了。但是今天一运行发现bug,这样两个话题爬到的数据都会存进同一份数据库里啊!

为了让两个话题分别存到2个数据库,这次:绞尽脑汁,还是分成了两个爬虫,两个爬虫分别连接2个redis数据库,使用2个pipelines存进2个MySQL数据库里。具体来说,

阅读全文 »

Recently I'm feeling very upset, even say, depressed. Especially when the sun goes down, and the sky turns dark, I almost wanna cry. I hope to get drunk once but after rethinking, I find it no chance. My baby won't let me do this.

I don't know specificly why I come here again. Perhaps it's because of the recent pressure from the English test, which I regarded as an impossible goal from the bottom of my heart. Once something impossible comes to my life, I cannot stand it at all.

I'm confused about why I should keep alive. I know this is a naive question and all the feelings are trivial.

So I won't talk about them anymore.

阅读全文 »

天地的雨下起来的时候
我坏了
烦躁的雨衣整齐叠在一边
心脏染上了一层蜡黄
我已装死很久了

在这场雨里
别再指望我解释什么
语言的甲板处处断裂
戏拟的修辞被扯成布条
你或许能听到
我的灵魂站在甲板上喃喃:
我也无法接受……我该如何契合
……至今的复杂性?

当今生活中,手机已经是最常用的访问互联网的方式了。尽管作为一个资深程序宅,我也不是天天都打开电脑。所以想办法方便地用手机更新博客是很重要的。

正好看到了邮件发文的功能,配置好之后,可以随时向一个指定邮箱发邮件,网站后台会定时拉取邮箱的内容,发现新内容则发表到网站,然后把邮箱清空。

原本秉着插件越少越好的原则,我想直接用WordPress自带的邮箱收文功能。但发现它有一个致命软肋:没法定时拉取邮箱收件箱。网上看到两种解决方案:

  1. 系统默认:访问特定url时触发拉取收件箱行为。
  2. 在网页php末尾增加几行代码,使每次网页被访问时触发拉取收件箱进程。
阅读全文 »

今天出了上学期的成绩啦,虽然名次上看起来退步不是很多,奖学金也勉强保持在了一样的水平,可是我还是很失落,因为知道自己上学期在学习上糟蹋成了什么样,如果更用心一点,本应该是什么样。 就是很失落。社交上、活动上,明明就已经是很差劲的状态了,学习上那么点小天赋,又被懒和怠惰霍霍得一无是处。这样不值一提的状态真是糟糕透顶。 我觉得应该要改变一些什么。总不能做一个顽固不化的人吧?这些看上去也不是不能改的样子。那就改变一些什么吧。虽然有时候懒和怠惰会使我发问,到底为什么要活得那么用力;可是我也该搞明白,虚荣和焦虑根本也不容我待在低谷里,这样会死掉的。 真是矛盾又很难做的一个人啊。还是睡好吃好,少想点有的没的,简单高效,高阈值低感知地活着吧。麻木点才好啊,这样敏感一人,常常影响到效率的。

I have to make this precise and essential TOEFL Review Plan because:

  1. The god damn Xiaozhan organization predicts that I will fail if I learn this all by myself. But I don't give a shit.
  2. The TOEFL entry fee is fucking expensive. And I've just missed one. I want this terrible experience to give me a lesson.
  3. I am too old to waste time!!!

And my plan is:

Everyday task

阅读全文 »

如果我可以操纵草木风景
我想为你倾现所有的美丽
如果世界上有最好的词语
那一定是我发明来形容你

如果光阴全攥在我的手里
我愿意把它们都虚掷给你
如果醉酒后人只会说真话
我愿意在你面前醉一万次
让你听听我心底的我爱你