继续研究YouTube中~现在要做爬虫去YouTube上爬数据~
好怀念当年数据结构的搜索引擎啊~
找出当年掌亮界做的爬虫~学习一下用在我的爬虫上~
网上能显示的数据都应该能搞到~但是视频内部的数据不知道怎么搞~
YouTube的视频格式是flv,即flash video~
我下载了一个视频~用UE打开发现文件头就有duration和datarate的信息~
这就是我要的数据~但现在的问题是:
1)从UE里可以看出duration和datarate的字样,这些是ASCII码~
但是它们后面的应该是相关数据,而这些是二进制代码~不知道怎么弄的~
我下载的视频中:
长度71.173秒, 对应40 52 55 C2 8F 5C 28 F6 00 0D~
Rate 295.051431688028 kbps, 对应 00 40 72 D2 AA 08 A0 F5 00 15~
2)不可能把所有视频都下来从header里提取数据,而是就要搞到header~
现在完全没有idea~搞过的人帮帮忙吧~(嘟嘟~奶奶~肥婆~)
今天和老板讨论时让我加速~(之前说最好暑假前~不知道意思是不是提前)
其实我也很想加速做~因为之前没人做过这个~可能有人同时在做~
如果能第一个出来就很有意义了~
还让我关注一下相关的conference~
搜了一下相关的会议~突然特别想能发paper然后去各地参加会议顺便玩一趟~
那些会大多数在北美开, 在San Diego的最多~在加拿大的还有在banff(断背山附近)~
还有日本,德国~我觉得最爽的是INFOCOM~在阿拉斯加~
最近没更新是因为没啥事儿~现在每天都是差不多~单调但并不无聊~
明天情人节~hoho~你快乐我快乐大家都快乐~
PS.现在很喜欢用烤箱烤~
因为
......
不用刷锅~