继续研究YouTube中~现在要做爬虫去YouTube上爬数据~
好怀念当年数据结构的搜索引擎啊~
找出当年掌亮界做的爬虫~学习一下用在我的爬虫上~
网上能显示的数据都应该能搞到~但是视频内部的数据不知道怎么搞~
YouTube的视频格式是flv,即flash video~
我下载了一个视频~用UE打开发现文件头就有duration和datarate的信息~
这就是我要的数据~但现在的问题是:
1)从UE里可以看出duration和datarate的字样,这些是ASCII码~
但是它们后面的应该是相关数据,而这些是二进制代码~不知道怎么弄的~
我下载的视频中:
长度71.173秒, 对应40 52 55 C2 8F 5C 28 F6 00 0D~
Rate 295.051431688028 kbps, 对应 00 40 72 D2 AA 08 A0 F5 00 15~
2)不可能把所有视频都下来从header里提取数据,而是就要搞到header~
现在完全没有idea~搞过的人帮帮忙吧~(嘟嘟~奶奶~肥婆~)
今天和老板讨论时让我加速~(之前说最好暑假前~不知道意思是不是提前)
其实我也很想加速做~因为之前没人做过这个~可能有人同时在做~
如果能第一个出来就很有意义了~
还让我关注一下相关的conference~
搜了一下相关的会议~突然特别想能发paper然后去各地参加会议顺便玩一趟~
那些会大多数在北美开, 在San Diego的最多~在加拿大的还有在banff(断背山附近)~
还有日本,德国~我觉得最爽的是INFOCOM~在阿拉斯加~
最近没更新是因为没啥事儿~现在每天都是差不多~单调但并不无聊~
明天情人节~hoho~你快乐我快乐大家都快乐~
PS.现在很喜欢用烤箱烤~
因为
......
不用刷锅~
11 comments:
看你的春晚去吧,哈哈
是不是据说宋祖英和费玉清唱千里之外.............
加油~~~~
不能reverse一下它的flash播放器文件么
找找看有没有flash的开发包或者是API,应该有直接从这种文件提取信息的方法吧?
最笨的方法,用C分别以 float 和 double 和 long double 读
然后用%f %lf %Lf打印 看看跟你拿到的是否一样
这种信息应该不会加密的
Header信息不够准确,所以你要自己先试验一下Hear信息和视频是否相同
如果相同,我印象中你想服务器请求的话,都会返回http header的,至少我毕设时候弄网页是那样
当然网页的size信息都是没问题的。所以你的程序只要保存header就可以。
别问我具体怎么做,linux下的那个程序的一个类自然就给我两样东西,
我只不过都写道文件里就是了
希望对你有帮助
你们俩以后第一件要买的东西就是洗碗机!!!
谢谢各位大牛~
竟然把缺缺忘了~
居然被你列在高人里了. 这是我GOOGLE到的一段代码, 应该对第一个问题有点用.
http://lists.mplayerhq.hu/pipermail/ffmpeg-devel/2006-August/013628.html
here is a reply for that
http://lists.mplayerhq.hu/pipermail/ffmpeg-devel/2006-August/013622.html
春节快乐~嘻嘻~
Post a Comment