Tuesday, February 13, 2007

继续YouTube(高人来帮忙)~我想发paper~

继续研究YouTube中~现在要做爬虫去YouTube上爬数据~

好怀念当年数据结构的搜索引擎啊~

找出当年掌亮界做的爬虫~学习一下用在我的爬虫上~

网上能显示的数据都应该能搞到~但是视频内部的数据不知道怎么搞~

YouTube的视频格式是flv,即flash video~

我下载了一个视频~用UE打开发现文件头就有duration和datarate的信息~

这就是我要的数据~但现在的问题是:

1)从UE里可以看出duration和datarate的字样,这些是ASCII码~

但是它们后面的应该是相关数据,而这些是二进制代码~不知道怎么弄的~

我下载的视频中:

长度71.173秒, 对应40 52 55 C2 8F 5C 28 F6 00 0D~

Rate 295.051431688028 kbps, 对应 00 40 72 D2 AA 08 A0 F5 00 15~

2)不可能把所有视频都下来从header里提取数据,而是就要搞到header~

现在完全没有idea~搞过的人帮帮忙吧~(嘟嘟~奶奶~肥婆~)

 

今天和老板讨论时让我加速~(之前说最好暑假前~不知道意思是不是提前)

其实我也很想加速做~因为之前没人做过这个~可能有人同时在做~

如果能第一个出来就很有意义了~

还让我关注一下相关的conference~

搜了一下相关的会议~突然特别想能发paper然后去各地参加会议顺便玩一趟~

那些会大多数在北美开, 在San Diego的最多~在加拿大的还有在banff(断背山附近)~

还有日本,德国~我觉得最爽的是INFOCOM~在阿拉斯加~

 

最近没更新是因为没啥事儿~现在每天都是差不多~单调但并不无聊~

 

明天情人节~hoho~你快乐我快乐大家都快乐~

 

PS.现在很喜欢用烤箱烤~

因为

......

不用刷锅~

11 comments:

Ken said...

看你的春晚去吧,哈哈
是不是据说宋祖英和费玉清唱千里之外.............

Jia said...

加油~~~~

Bin said...

不能reverse一下它的flash播放器文件么

lobatt said...

找找看有没有flash的开发包或者是API,应该有直接从这种文件提取信息的方法吧?

Qi said...

最笨的方法,用C分别以 float 和 double 和 long double 读
然后用%f %lf %Lf打印 看看跟你拿到的是否一样
这种信息应该不会加密的

Qi said...

Header信息不够准确,所以你要自己先试验一下Hear信息和视频是否相同
如果相同,我印象中你想服务器请求的话,都会返回http header的,至少我毕设时候弄网页是那样
 
当然网页的size信息都是没问题的。所以你的程序只要保存header就可以。
别问我具体怎么做,linux下的那个程序的一个类自然就给我两样东西,
我只不过都写道文件里就是了
希望对你有帮助

宣 said...

你们俩以后第一件要买的东西就是洗碗机!!!

Xu said...

谢谢各位大牛~
竟然把缺缺忘了~

xin said...

居然被你列在高人里了. 这是我GOOGLE到的一段代码, 应该对第一个问题有点用.
http://lists.mplayerhq.hu/pipermail/ffmpeg-devel/2006-August/013628.html

xin said...

here is a reply for that
http://lists.mplayerhq.hu/pipermail/ffmpeg-devel/2006-August/013622.html

sayon said...

春节快乐~嘻嘻~